《ELK Stack 权威 指南 》 第 1 版 面世 之 后 的 这 一 年 多 时 间 里 ，ELK stack 在 Elastic.co 公 司 以 及 社区 的 共同 努力 下 飞速 发 展 。 国 内 外 都 出 现 了 不 少 基于 ELK Stack 实现 的 日 志 分 析 产 品 和 创业 公司 。ELK 
Stack 已 经 成 为 DevOps 技 术 栈 中 必 不 可 缺少 的 一 个 部 分 ， 较 大 型 的 互联 网 公司 甚至 已 经 配备 有 专职 的 ELK Stack 管 理 团 队 。 


H 


对 于 并 不 精通 ELK stack 技术 及 其 发 展 历史 的 人 来 说 ， 过 去 复杂 的 版 本 对 应 是 新 手 的 第 一 道门 槛 。 最 近 全 新 更 新 的 ELK Stack 各 组 件 ， 统 一 使 用 5.x 系 列 版 本 号 ， 大 大 方便 了 新 手 入 门 。 而 5.x 系 列 同样 携 
带 了 大 量 窑 新 的 特性 ， 在 日 志 分 析 、 监 控告 警 等 场景 ， 带 来 性 能 提升 、 管 理 简化 、 功 能 丰富 等 诸多 好 处 。 推 荐 广大 读者 积极 尝试 和 升级 。 


IT 运 维 模式 正在 向 数据 驱动 、 精 细 化 、 智 能 化 发 展 。 这 个 过 程 中 ，ELK stack 恰好 是 运 维 人 员 达 成 这 个 目的 最 方便 的 工具 和 平台 。 基 于 ELK Stack 平 台 ， 越 来 越 多 的 周边 开源 项 目 在 涌现 。 这 次 再 版 , 也 
进一步 丰富 了 这 些 周边 项 目的 介绍 。 


与 第 1 版 相 比 ， 第 2 版 修订 、 删 补 了 180 多 页 内 容 ， 接 近 全 书 的 一 半 。 修 改期 间 ， 怀 孕 的 妻子 一 直 默 默 陪伴 左右 ， 时 不 时 叮嘱 我 注意 保存 。 谨 以 此 书 献 给 她 和 刚 出 生 的 启 舟 宝 贝 ， 我 爱 你 们 1! 


本 书 章节 内 容 


本 书包 括 三 大 部 分 共 19 章 ， 各 部 分 可 以 独立 阅读 。 但 对 于 还 没有 大 规模 应 用 经 验 的 新 手 ， 建 议 按 顺序 阅读 全 文 。 


第 一 部 分 “Logstash 


第 1 章 : 入 门 示例 。 该 章 介绍 Logstash 及 其 插件 的 配置 安装 方法 ， 自 定义 配置 语言 的 设计 用 途 ， 并 为 不 熟悉 Linux 系 统管 理 的 开发 人 员 介绍 了 多 种 后 台 运 行 方式 。 


第 2 章 : 插件 配置 。 该 章 列举 Logstash 最 常用 的 几 十 种 插件 ， 通 过 实际 示例 和 效果 ， 讲 解 各 插件 的 配置 细节 和 用 途 。 


第 3 章 : 场景 示例 。 该 章 以 最 常见 的 运 维 、 网 络 、 开 发 和 数据 库 场景 ， 介 绍 Logstash 处 理 Nginx、Postfix、Ossec、Log4J、MySQL、Docker 等 日 志 的 最 佳 实践 。 


第 4 章 : 性 能 与 监控 。 了 解 Logstash 的 性 能 情况 一 直 是 个 难题 ， 该 章 从 Logstash 设 计 原 理 和 JVM 平 台 本 质 出 发 ， 介 绍 几 种 行 之 有 效 的 检测 和 监控 方案 。 


第 5 章 : 扩展 方案 。 该 章 介绍 采用 Redis 和 Kafka 完 成 Logstash 水 平 扩展 的 方案 ， 同 时 也 介绍 其 他 几 种 日 志 收集 系统 与 Logstash 的 配合 方式 。 


第 6 章 : Logstash 源 码 解析 。 该 章 解析 Logstash 源 码 中 最 重要 的 Pipeline 设 计 ， 以 及 Logstash: : Event 的 来 龙 去 脉 。 


第 7 章 : 插件 开发 。 该 章 以 最 常见 的 用 户 登 录 记 录 和 地 址 库 解 析 、Consul 数 据 更 新 等 需求 ， 实 际 演示 Logstash 的 自 定 义 Filter、Input 和 Output 插 件 的 编写 ， 同 时 还 涉及 了 插件 打包 的 RubyGems 规 范 共 
有 HttpClient 功 能 项 等 细节 。 


第 8 章 : Beats。 该 章 讲述 ELK stack 家 族 新 成 员 Beats 生 态 圈 各 组 件 的 使 用 ， 包 括 Filebeat、packetbeat、metricbeat、winlogbeat 等 内 容 。 


第 二 部 分 “Elasticsearch 


第 9 章 : 架构 原理 。 该 章 从 更 高 级 的 架构 层面 ， 介 绍 Elasticsearch 分 布 式 设计 中 涉及 稳定 性 和 高 性 能 的 部 分 原理 ， 并 由 此 引发 相关 的 优化 配置 介绍 。 另 外 ， 还 提供 了 一 种 针对 时 序数 据 索引 的 读 写 分 离 方 
案 ， 适 用 于 拥有 少 部 分 SSD 设 备 的 用 户 。 


第 10 章 : 数据 接口 用 例 。 该 章 介绍 Elasticsearch 的 RESTfu| 接 口 的 基础 知识 ， 并 针对 常见 的 重建 索引 需求 提供 两 种 快速 实现 方案 ， 为 有 Spark 经 验 的 读者 介绍 通过 Spark Streaming 接 口 读 写 
Elasticsearch 的 方法 。 


第 11 章 : 性 能 优化 。 该 章 介绍 Elasticsearch 在 日 志 处 理 场景 下 的 读 写 优化 知识 和 官方 推荐 的 curator 工 具 ， 其 中 重点 介绍 了 Elasticsearch 中 几 种 不 同 cache 的 区 别 和 有 效 场景 。 


第 12 章 : 测试 和 扩展 方案 。 该 章 介 绍 Elasticsearch 在 生产 环境 中 需要 的 一 些 周 边 工具 ， 比 如 Puppet 配 置 管理 、Shield 权 限 管理 、 版 本 升级 操作 、 别 名 切换 流程 设计 等 。 新 增 了 快照 与 恢复 功能 。 


第 13 章 : 映射 与 模板 的 定制 。 该 章 详细 介绍 Elasticsearch 中 的 核心 类 型 及 其 对 应 的 常见 映射 设置 ， 以 及 如 何 通 过 动态 模板 简化 映射 定制 操作 的 复杂 度 。 


第 14 章 : 监控 方案 。Elasticsearch 作 为 一 个 分 布 式 系统 ， 也 是 有 一 定 的 运 维 难 度 的 ， 因 此 其 本 身 的 监控 也 相当 重要 。 该 章 介 绍 Elasticsearch 自 带 的 一 系列 监控 接口 ， 以 及 由 此 衍生 的 多 种 实时 或 长 期 的 
监控 方案 。 


第 15 章 : Elasticsearch 在 运 维 监控 领域 的 其 他 应 用 。 该 章 介 绍 Elasticsearch 在 运 维 方面 的 其 他 运用 方式 ， 包 括 实 时 过 滤 接 口 、 定 时 报警 系统 设计 、 时 序数 据 存储 和 相关 性 排序 等 。 


第 三 部 分 Kibana 


第 16 章 : Kibana 的 产品 对 比 。 该 章 介绍 Kibana 3 与 Kibana 5 之 间 ， 以 及 它们 与 Hadoop、Splunk 之 间 的 差异 ， 方 便 读者 在 不 同 场景 需求 下 选择 更 正确 的 工具 。 


第 17 章 : Kibana 5。 该 章 介绍 Kibana 5 的 安装 部 署 和 界面 操作 方式 ， 重 点 介绍 Kibana 5 提供 的 几 种 可 视 化 图 表 的 配置 细节 和 效果 ， 并 以 几 种 场景 的 日 志 分 析 需 求 演示 了 Kibana 5 全 新 的 子 聚合 功能 的 效 
果 。 最 后 还 介绍 了 一 种 采用 phantom.js 截 图 方式 记录 长 期 报表 数据 的 方案 。 
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第 18 章 : Kibana 5 源码 解析 。 该 章 介绍 Kibana 4 的 界面 实现 ， 重 点 包括 其 内 部 ORM 实 现 的 Counrier 类 、 可 视 化 绘图 的 Vislib 类 等 。 


第 19 章 : Kibana 揪 件 开发 示例 。 该 章 讲述 Kibana 最 常用 的 插件 类 型 二 次 开发 实例 ， 包 括 可 视 化 效果 、 服 务 器 段 进 程 、 完 整 App 演 示 等 内 容 。 


致谢 


我 本 人 虽然 接触 ELK 较 早 ， 但 本 身 专 于 Web 和 App 应 用 数据 方面 ， 动 笔 以 来 得 到 诸多 朋友 的 帮助 ， 在 此 深 表 感谢 。 此 外 ， 还 要 特别 感谢 Elastic.co 公 司 的 曾 勇 (medcl) 和 吴 晓 刚 (Wood) ， 曾 勇 完 成 
Elasticsearch 在 国内 的 启蒙 式 分 享 ， 并 主办 Elasticsearch 中 国 用 户 大 会 ， 吴 晓 刚 积极 帮助 新 用 户 ， 并 最 早 分 享 了 携程 的 ELK 日 亿 级 规模 的 实例 。 


第 一 部 分 Logstash 


“第 1 章 入门 示例 


“ 第 2 章 ”插件 配置 
“第 3 章 场景 示例 
“ 第 4 章 ”性 能 与 监控 
RSE 扩展 方案 


“ 第 6 章 Logstash 源 码 解析 


“第 7 章 ”插件 开发 


“第 8 章 Beats 


Logstash is a tool for managing events and logs.You can use it to collect logs, parse them, and store them for later use (like, for searching) . http: //logstash.net 


Logstash 项 目 诞 生 于 2009 年 8 月 2 日 。 其 作者 是 世界 著名 的 运 维 工程 师 乔 丹 ， 西 塞 (Jordan Sissel) ， 乔 丹 ， 西 塞 当时 是 著名 虚拟 主机 托管 商 DreamHost 的 员工 ， 还 发 布 过 非常 棒 的 软件 打包 工具 fpm， 并 主办 
着 一 年 一 度 的 Sysadmin Advent Calendar (advent calendat 文 化 源 自 基督 教 氛围 浓厚 的 Ped 社 区 ， 在 每 年 圣诞 来 临 的 12 月 举办 ， 从 12 月 1 日 起 至 12 月 24 日 止 ， 每 天 发 布 一 篇 小 短文 介绍 主题 相关 技术 ) 。 


Logstash 动 手 很 早 ， 对 比 一 下 ，Sctibed 诞 生 于 2008 年 ，Flume 诞 生 于 2010 年 ，Graylog2 诞 生 于 2010 年 ，Fluentd 诞 生 于 2011 年 。Sctribed 在 2011 年 进入 半死 不 活 的 状态 ， 大 大 激发 了 其 他 各 种 开源 日 志 收集 处 理 
框架 的 蓬 描 发 展 ，Logstash 也 从 2011 年 开始 进入 commit 密 集 期 并 延续 至 今 。 


作为 一 个 系 出 名 门 的 产品 ，Logstash 的 身影 多 次 出 现在 Sysadmin Weekly 上 ， 它 和 小 伙伴 们 Elasticsearch、Kibana 直 接 成 为 了 和 商业 产品 Splunk 做 比较 的 开源 项 目 (乔丹 . 西 塞 曾经 在 博客 上 承认 设计 想法 来 
自 AWS 平 台 上 最 大 的 第 三 方 日 志 服 务 商 Loggly， 而 Loggly 两 位 创始 人 都 曾 是 Splunk 员 工 ) 。 


2013 年 ，Logstash 被 Elasticsearch 公 司 收购 ，ELK Stack 正 式 成 为 官方 用 语 。Elasticsearch 本 身 也 是 近 两 年 最 受 关注 的 大 数据 项 目 之 一 ， 三 次 融资 已 经 超过 一 亿美 元 。 在 Elasticsearch 开 发 人 员 的 共同 努力 
下 ，Logstash 的 发 布 机制 、 插 件 架构 也 盒 发 科学 和 合理 。 


社区 文化 


上 日志 收集 处 理 框架 很 多 ， 如 Sctibe 是 Facebook 出 品 ，Flume 是 Apache 基 金 会 项 目 ， 都 算 声名 赫赫 。 但 Logstash 因 乔丹 ， 西 塞 的 个 人 性 格 ， 形 成 了 一 套 独 特 的 社区 文化 。 每 一 个 在 Google Groups 的 Logstash- 


users 组 里 问答 的 人 都 会 看 到 这 么 一 句 话 : 
Remember: if a new user has a bad time, it’ sa bug in Logstash. 


所 以 ，Logstash 是 一 个 开放 的 、 极 其 互助 和 友好 的 大 家 庭 。 如 有 问题 ， 仅 管 在 Github Issue, Google Groups, Freenode#logstash Channel 上 发 问 就 好 ! 


第 1 章 “入门 示例 


什么 是 Logstash? 为 什么 要 用 Logstash? 怎么 用 Logstash? 这 是 本 章 将 要 介绍 的 内 容 。 本 章 从 最 基础 的 知识 着 手 ， 从 以 下 几 步 介绍 Logstash 的 必 备 知识 。1) 下 载 安 装 。 介 绍 Logstash 软 件 的 多 种 安装 
部 署 方式 ， 并 给 出 推荐 的 方式 。2) 初次 运行 。 通 过 Hello World 示 例 ， 演 示 Logstash 最 简单 的 运用 ， 解 释 其 逻辑 上 的 基础 原理 。3) 配置 语法 。 介 绍 Logstash 的 DSL 设 计 ，Logstash 命 令 的 运行 参数 。4) 
插件 安装 。 灵 活 和 丰富 的 插件 是 Logstash 最 重要 的 优势 。 本 节 会 介绍 Logstash 插 件 的 安装 方式 。5) 长 期 运行 方式 。 从 初次 终端 测试 到 长 期 后 台 稳定 运行 ， 本 节 会 介绍 几 种 不 同方 案 ， 供 读者 根据 实际 场景 
选择 。 


Logstash 从 1.5 版 本 开始 ， 将 核心 代码 和 插件 代码 完全 剥离 ， 并 重 构 了 插件 架构 逻辑 ， 所 有 插件 都 以 标准 的 Ruby Gem 包 形式 发 布 。 


下 载 官方 软件 包 的 方式 有 以 下 几 种 : 
+ 压缩 包 方式 
https://artifacts.elastic.co/downloads/logstash/logstash-5.1.1.tar.gz 
+ Debian 平 台 
https://artifacts.elastic.co/downloads/logstash/logstash-5.1.1.deb 


+ Redhat-+ 


https://artifacts.elastic.co/downloads/logstash/logstash-5.1.1.rpm 


2. 安 装 


在 上 面 这 些 包 中 ， 你 可 能 更 偏向 使 用 rpm、dpkg 等 软件 包 管 理工 具 来 安装 Logstash， 开 发 者 在 软件 包 里 预定 义 了 一 些 依赖 。 比 如 ，logstash-5.0.2 就 依赖 于 jre 包 。 


另外 ， 软 件 包 里 还 包含 有 一 些 很 有 用 的 脚本 程序 ， 比 如 /etc/init.d/logstash。 


如 果 你 必须 在 一 些 很 老 的 操作 系统 上 运行 Logstash， 那 你 只 能 用 源 代码 包 部 署 了 ， 记 住 要 自己 提前 安装 好 Java: 


yum install openjdk-jre 
export JAVA_HOME=/usr/java 
tar zxvf logstash-5.0.2.tar.gz 


但 是 真正 的 建议 是 : 如 果 可 以 ， 请 用 Elasticsearch 官 方 仓 库 来 直接 安装 Logstashl 


* Debian #4 & 


wget -q0 - https://artifacts.elastic.co/GPG-KEY-elasticsearch | sudo apt-key add - 

sudo apt-get install apt-transport-https 

echo "deb https://artifacts.elastic.co/packages/5.x/apt stable main" | sudo tee -a /etc/apt/sources.list.d/elastic-5.x.list 
sudo apt-get update && sudo apt-get install logstash 


Redhat 平台 


sudo rpm --import 
https://artifacts.elastic.co/GPG-KEY-elasticsearch 
sudo cat > /etc/yum.repos.d/elk.repo <<EOF 
[logstash-5.x] 

name=Elastic repository for 5.x packages 
baseurl=https://artifacts.elastic.co/packages/5.x/yum 
gpgcheck=1 

gpgkey=https: //artifacts.elastic.co/GPG-KEY-elasticsearch 
enabled=1 

autorefresh=1 

type=rpm-md 

EOF 

sudo yum install -y logstash 

enabled=1 

EOF 

yum clean all 

yum install logstash 


1.2 Hello World 


与 绝 大 多 数 IT 技 术 介绍 一 样 ， 我 们 也 以 一 个 输出 “Hello World” 的 形式 开始 学 习 Logstash。 


在 终端 中 ， 像 下 面 这 样 运行 命令 来 启动 Logstash 进 程 : 


# bin/logstash -e 'input{stdin{}}output {stdout {codec=>rubydebug}}' 


首先 看 到 终端 输出 一 段 进程 启动 过 程 的 提示 输出 。 提 示 以 “Successfully started Logstash API endpoint{: port=>9600}" 结束 。 


然后 你 会 发 现 终端 在 等 待 你 的 输入 。 没 问题 ， 毅 入 Hello World， 回 车 ， 看 看 会 返回 什么 结果 ! 


{ 

"message" =>"Hello World", 

"@version" ee 

"@timestamp" =>"2014-08-07T10:30:59.9372", 
"host" =>"raochenlindeMacBook-Air.local", 
} 


没 错 ! 就 是 这 么 简单 。 


2. 完 整 示例 


命令 行 运行 当然 不 是 什么 特别 方便 的 用 法 ， 所 以 绝 大 多 数 情况 下 ， 我 们 都 是 采用 额外 定义 一 个 logstash.conf 配 置 文件 的 方式 来 启动 Logstash。 下 面 是 我 们 的 第 一 个 完整 版 logstash.conf 的 示例 : 


input { 
stdin { } 


output { 
stdout { 
codec => rubydebug {} 


elasticsearch { 
Rost=>(["127.0.0.1"] 
} 


因为 在 5.0 版 本 中 ，Elasticsearch 和 Kibana 都 是 独立 服务 。 如 果 你 按照 上 一 节 的 最 佳 实践 配置 好 了 yum 的 话 ， 通 过 如 下 命令 启动 服务 即 可 : 


# service elasticsearch start && service kibana start 


然后 在 终端 上 这 样 运行 : 


# bin/logstash -f logstash.conf 


同样 ， 还 是 输入 一 次 Hello World。 你 会 看 到 和 上 一 次 一 样 的 一 段 Ruby 对 象 输出 。 但 事实 上 ， 这 个 完整 示例 可 不 止 如 此 。 打 开 另 一 个 终端 ， 输 入 下 面 一 行 命令 : 


# curl http://127.0.0.1:9200/_search?q=hello 


你 会 看 到 终端 上 输出 下 面 这 么 一 段 内 容 : 


{"took":15,"timed_out":false," shards": {"total":27,"successful":27,"failed":0},"hits": {"total":1,"max_score":0.095891505, "hits":[{" index":"logstash-2015.08.22"," type":"logs", 


这 时 候 你 打开 浏览 器 ， 访 问 http://127.0.0.1: 5601 地 址 ， 按 照 提示 完成 index pattern 配 置 (正常 的 话 只 需要 点 击 一 下 Create 按 钮 ) ， 即 可 点 击 Discover 页 面 看 到 如 图 1-1 所 示 的 效果 。 你 在 终端 上 输入 
的 数据 ， 可 以 从 这 个 页 面 上 任意 搜索 了 。 


E Kibana 


Q © 127.0.0.1 


kibana 


Discover 
Visualize Selected Fields 


Dashboard ? _source 


Tio Available Fields 


© @timestamp 
t @version 


Management 


23:31:00 233200 233300 23:34:00 23:35:00 23:36:00 2337:00 23:38:00 
@timestamp per 30 seconds 


Dev Tools 


New Save Open Share © Last 15 minutes 


November 30th 2016, 23:29:34.974 - November 30th 2016, 23:44:34.974 — by 30 seconds 


23:39:00 23:40:00 23:41:00 234200 234300 23:4400 


November 30th 2016, 23:39:36.563 @timestamp: November 30th 2016, 23:39:36.563 @version: 1 host: MacBook-Pro-3.local 
message: Hello World _id: AVilSCScnv21WYuwsqi3 _type: logs _index: logstash-2016.11.3 


图 1-1 Kibana 上 搜索 的 hello world 


Qez 对 index pattermm 配 置 有 疑惑 的 读者 ， 可 以 阅读 本 书 第 三 部 分 关于 Kibana 的 章节 。 


3. 解 释 


每 位 系统 管理 员 都 肯定 写 过 很 多 类 似 这 样 的 命令 : cat randdatalawk ‘{print$2} |sortluniq-cltee sortdata。 这 个 管道 符 | 可 以 算是 Linux 世 界 最 伟大 的 发 明之 一 (BNE "WASH" ) 。 


Logstash 就 像 管 道 符 一 样 ! 


输入 (就 像 命令 行 的 cat) 数据 ， 然 后 处 理 过 滤 (就 像 awk 或 者 uniq 之 类 ) 数据 ， 最 后 输出 (就 像 tee) 到 其 他 地 方 。 


当然 实际 上 ，Logstash 是 用 不 同 的 线程 来 实现 这 些 的 。 如 果 你 运行 top 命 令 然 后 按 下 H 键 ， 你 就 可 以 看 到 下 面 这 样 的 输出 : 


PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 
21401 root 16 0 1249m 303m 10m S 18.6 0.2 866:25.46 |worker 
21467 root 15 0 1249m 303m 10m S 3.7 0.2 129:25.59 >elasticsearch. 
21468 root 15 0 1249m 303m 10m S 3.7 0.2 128:53.39 >elasticsearch. 
21400 root 15 0 1249m 303m 10m S 2.7 0.2 108:35.80 <file 
21403 root 15 0 1249m 303m 10mS 1.3 0.2 49:31.89 >output 
21470 root 15 0 1249m 303m 10mS 1.0 0.2 56:24.24 >elasticsearch. 


如 上 例 所 示 ，Logstash 很 温馨 地 给 每 类 线程 都 取 了 名 字 ， 输 入 的 叫 <xx， 过 渡 的 叫 |xx， 输 出 的 叫 >xx。 


数据 在 线程 之 间 以 事件 的 形式 流传 。 不 要 叫 行 ， 因 为 Logstash 可 以 处 理 多 行事 件 。 


Logstash 会 给 事件 添加 一 些 额外 信息 。 最 重要 的 就 是 @timestamp， 用 来 标记 事件 的 发 生 时 间 。 因 为 这 个 字段 涉及 Logstash 的 内 部 流转 ， 


命名 为 @timestamp 的 话 ，Logstash 会 直接 报错 。 所 以 ， 请 使 用 logstash-filter-date 插 件 来 管理 这 个 特殊 字段 。 
此 外 ， 大 多 数 时 候 ， 还 可 以 见 到 另外 几 个 : 
“host 标记 事件 发 生 在 哪里 。 
“ type 标 记事 件 的 唯一 类 型 。 


“ tags 标 记事 件 的 菜 方 面 属性 。 这 是 一 个 数组 ， 一 个 事件 可 以 有 多 个 标签 。 


你 可 以 随意 给 事件 添加 字段 或 者 从 事件 里 删除 字段 。 事 实 上 事件 就 是 一 个 Ruby 对 象 ， 或 者 更 简单 地 理解 为 就 是 一 个 哈 希 也 行 。 


每 个 Logstash 过 滤 插 件 ， 都 会 有 四 个 方法 叫 add tag, remove tag, add field 和 remove field， 它 们 在 插件 过 滤 匹配 成 功 时 生效 。 


推荐 阅读 
“ 官网 上 “the life of an event” 文 档 : http://logstash.net/docs/1.4.2/life-of-an-event 


* Elastic{ON} 上 《life of a logstash event》 演 讲 : https://speakerdeck.com/elastic/life-of-a-logstash-event 


所 以 必须 是 一 个 joda 对 象 ， 如 果 你 尝试 自己 给 一 个 字符 串 字段 


1.3 配置 语 ; 


Logstash 社 区 通常 习惯 用 Shipper、Broker 和 Indexer 来 描述 数据 流 中 不 同 进程 各 自 的 角色 ， 如 图 1-2 所 示 。 


Search & 
Storage 


ElasticSearch 
10.0.0.1 


图 1-2 Logstash 角 色 说 明 


不 过 我 见 过 很 多 运用 场景 里 都 没有 用 Logstash 作 为 Shipper， 或 者 说 没有 用 Elasticsearch 作 为 数据 存储 ， 也 就 是 说 也 没有 Indexer。 所 以 ， 我 们 其 实 不 需要 这 些 概 念 。 只 需要 学 好 怎么 使 用 和 配置 
Logstash 进 程 ， 然 后 把 它 运用 到 你 的 日 志 管 理 架 构 中 最 合适 它 的 位 置 就 够 了 。 


1.3.1 语法 


Logstash 设 计 了 自己 的 DSL， 有 点 像 Puppet 的 DSL， 或 许 因为 都 是 用 Ruby 语 言 写 的 吧 ， 区 域 、 注 释 、 数 据 类 型 (布尔 值 、 字 符 串 数值 、 数 组 、 哈 希 ) 都 类 似 ， 条 件 判断 、 字 段 引 用 等 也 一 样 。 


1. 区 段 (section) 


Logstash 用 人 } 来 定义 区 域 。 区 域内 可 以 包括 插件 区 域 定义 ， 你 可 以 在 一 个 区 域内 定义 多 个 插件 。 播 件 区 域内 则 可 以 定义 键 值 对 设置 。 示 例如 下 : 


input { 
stdin {} 
syslog {} 


2 数据 类 型 
Logstash 支 持 少量 的 数据 值 类 型 ; 


+ Ar RAL (bool) 


debug => true 


“ PAPE (string) 


host =>"hostname" 


+ 数值 (number) 


port => 514 


:数组 (array) 


match => ["datetime", "UNIX", "ISO8601"] 


- 哈 希 (hash) 


options => { 
keyl =>"valuel", 
key2 =>"value2" 
} 


如 果 你 用 的 版 本 低 于 1.2.0， 哈 希 的 语法 跟 数 组 是 一 样 的 ， 像 下 面 这 样 写 : 


match => [ "field1", "pattern1", "field2", "pattern2" ] 


3. 字 段 引 用 (field reference) 


字段 是 Logstash: : Event 对 象 的 属性 。 我 们 之 前 提 过 事件 就 像 一 个 哈 希 一 样 ， 所 以 你 可 以 想象 字段 就 像 一 个 键 值 对 。 


如 果 你 想 在 Logstash 配 置 中 使 用 字段 的 值 ， 只 需 把 字段 的 名 字 写 在 中 括号 [里 就 行 了 ， 这 就 叫 “字段 引 


WH MES" (hates, AMIGA) ， 每 层 的 字段 名 都 写 在 [里 就 可 以 了 。 比 如 ， 你 可 以 从 geoip 


这 个 数据 的 ) : 


这 样 获取 longitude 值 (是 的 ， 这 是 个 笨 办 法 ， 实 际 上 有 单独 的 字段 专门 存 


[geoip] [location] [0] 


oi Logstash 的 数组 也 支持 倒序 下 标 ， 即 [geoipjllocationl[1] 可 以 获取 数组 最 后 一 个 元 素 的 值 。 


Logstash 还 支持 变量 内 插 ， 在 字符 串 里 使 用 字段 引用 的 方法 是 这 样 : 


"the longitude is %{[geoip] [location] [0]}" 


4. 条 件 判 断 (condition) 


Logstash 从 1.3.0 版 开始 支持 条 件 判断 和 表达 式 。 


表达 式 支持 下 面 这 些 操作 符 : 
“equality, etc: ==, !=, <, >, <=, >= 
"regexp: =~, !~ 


"inclusion: in, not in 
"boolean: and, or, nand, xor 
"unary: !() 


通常 来 说 ， 你 都 会 在 表达 式 里 用 到 字段 引用 。 比 如 : 


if " grokparsefailure" not in [tags] { 

} else if [status] !~ /*2\d\d/ and [url] == "/noc.gif" { 
} else { 

} 


1.3.2 命令 行 参数 


Logstash 提 供 了 一 个 shell 脚 本 叫 logstash 方 便 快 速 运行 ， 下 面 介绍 它 支持 的 参数 : 


1.-e 


意 即 “执行 ”。 我 们 在 “Hello World” 的 时 候 已 经 用 过 这 个 参数 了 。 事 实 上 你 可 以 不 写 任何 具体 配置 ， 直 接 运 行 bin/logstash-e 


” 可 达到 相同 效果 。 这 个 参数 的 默认 值 是 下 面 这 样 : 


input { 
stdin { } 


output { 
stdout { } 
} 


2.--config 或 -f 


意 即 “文件 ”。 真 实 运用 中 ， 我 们 会 写 很 长 的 配置 ， 甚 至 可 能 超过 shell 所 能 支持 的 1024 个 字符 长 度 。 所 以 我 们 必 把 配置 固化 到 文件 里 ， 然 后 通过 bin/logstash-f agent.conf 这 样 的 形式 来 运行 。 


此 外 ，Logstash 还 提供 一 个 方便 我 们 规划 和 书写 配置 的 小 功能 。 你 可 以 直接 
里 拼接 成 一 个 完整 的 大 配置 文件 ， 再 去 执行 。 


bin/logstash-f/etc/logstash.d/ 来 运行 。Logstash 会 


自动 读 取 /etc/logstash.d/ 目 录 下 所 有 的 文本 文件 ， 然 后 在 自己 内 存 


Os Logstash 列 出 目录 下 所 有 文件 时 是 字母 排序 的 。 而 Logstash 配 置 段 的 filter 和 output 都 是 顺序 执行 的 ， 所 以 顺序 非常 重要 。 采 用 多 文件 管理 的 用 户 ， 推 荐 采用 数字 编号 方式 命名 配置 文件 ， 同 时 


在 配置 中 严谨 采用 if 判 断 限定 不 同日 志 的 动作 。 


3.--configtest 或 -t 


意 即 “测试 ”。 用 来 测试 Logstash 读 取 到 的 配置 文件 语法 是 否 能 正常 解析 。Logstash 配 置 语法 是 


4.--log 或 -| 


grammartreetop 定 义 的。 尤其 是 使 


意 即 “日 志 ”。Logstash 默 认输 出 日 志 到 标准 错误 。 生 产 环境 下 你 可 以 通过 bin/logstash-l logs/logstash.log 命 令 来 统一 存储 日 志 。 


5.--pipeline-workers 或 -w 


了 上 一 条 提 到 的 读 取 目录 方式 的 读者 ， 尤 其 要 提前 测试 。 


运行 filter 和 output 的 pipeline 线 程 数量 ， 默 认 是 CPU 核 数 。 


6.--pipeline-batch-size 或 -b 


每 个 Logstash pipeline 线 程 ， 在 执行 具体 的 filter 和 output 函 数 之 前 ， 最 多 能 累积 的 日 志 条 数 ， 默 认 是 125 条 。 越 大 性 能 越 好 ， 同 样 也 会 消耗 越 多 的 JVM 内 存 。 


7.--pipeline-batch-delay 或 -u 


每 个 Logstash pipeline 线 程 ， 在 打包 批量 日 志 的 时 候 ， 最 多 等 待 几 毫 秒 ， 默 认 是 5 ms, 


8.--pluginpath 或 -P 


可 以 写 自 己 的 插件 ， 然 后 用 bin/logstash--pluginpath/path/to/own/plugins 加 载 它们 。 


【= 如 果 你 使 用 的 Logstash 版 本 在 1.5.0-rc3 到 1.5.3 之 间 ， 该 参数 一 度 被 取消 ， 请 改 用 本 地 gem 插 件 安装 形式 。 


9.--verbose 


输出 一 定 的 调 斌 日志。 如 果 你 使 用 的 Logstash 版 本 低 于 1.3.0， 则 用 bin/logstash-v 来 代替。 


10.--debug 


输出 更 多 的 调试 日 志 。 如 果 你 使 用 的 Logstash 版 本 低 于 1.3.0， 则 用 bin/logstash-vv 来 代 蔡 。 


1.3.3 ”设置 文件 示例 


从 Logstash 5.0 开 始 ， 新 增 了 $LS_HOME/config/logstash.yml 文 件 ， 可 以 将 所 有 的 命令 行 参数 都 通过 YAML 文 件 方式 设置 。 同 时 为 了 反映 命令 行 配置 参数 的 层级 关系 ， 参 数 也 都 改 成 有 


上 小 节 的 pipeline 相 关 命 令 行 参数 ， 改 用 YAML 文 件 的 写法 如 下 : 


pipeline: 
workers: 24 
batch: 
size: 125 
delay: 5 


:而 不 用 - 了。 


14 ”插件 安装 


从 Logstash 1.5.0 版 本 开始 ，Logstash 将 所 有 的 插件 都 独立 拆 分 成 gem 包 。 这 样 ， 每 个 插件 都 可 以 独立 更 新 ， 不 用 等 待 Logstash 自 身 做 整体 更 新 的 时 候 才能 使 用 了 。 


为 了 达到 这 个 目标 ，Logstash 配 置 了 专门 的 plugin 管 理 命令 。 


plugin 命 令 用 法 说 明 如 下 : 


Usage: 
iy plo [OPTIONS] SUBCOMMAND [ARG] http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 

Parameters: 

SUBCOMMAND subcommand 

[ARG] http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... subcommand arguments 
Subcommands: 

install Install a plugin 

uninstall Uninstall a plugin 

update Install a plugin 

list List all installed plugins 
Options: 

-h, --help print help 


首先 ， 你 可 以 通过 bin/logstash-plugin list 查 看 本 机 现在 有 多 少 插件 可 用 。 (其 实 就 在 vendor/bundle/jruby/1.9/gems/ 目 录 下 。) 


然后 ， 假 如 你 看 到 https://github.com/logstash-plugins/ 下 新 发 布 了 一 个 logstash-output-webhdfs 模 块 (当然 目前 还 没有 ) 。 打 算 试 试 ， 就 只 需 运 行 如 下 命令 : 


bin/logstash-plugin install logstash-output-webhdfs 


同样 ， 假 如 是 升级 ， 只 需 运 行 如 下 命令 即 可 : 


bin/logstash-plugin update logstash-input-tcp 


bin/logstash-plugin 不 但 可 以 通过 rubygems 平 台 安 装 插件 ， 还 可 以 读 取 本 地 路 径 的 gem 文 件 ， 这 对 自 定义 插件 或 者 无 外 接 网 络 的 环境 都 非常 有 效 : 


bin/logstash_plugin install /path/to/logstash-filter-crash.gem 


执行 成 功 以 后 。 你 会 发 现 ，logstash-5.0.2 目 录 下 的 Gemtfile 文 件 最 后 会 多 出 一 段 内 容 : 


gem "logstash-filter-crash", "1.1.0", :path =>"vendor/local_gems/d354312c/logstash-filter-mweibocrash-1.1.0" 


同时 Gemfilejruby-1.9.lock 文 件 开头 也 会 多 出 一 段 内 容 ， 如 下 所 示 : 


PATH 
remote: vendor/local gems/d354312c/logstash-filter-crash-1.1.0 
specs: 
logstash-filter-crash (1.1.0) 
logstash-core (>= 1.4.0, < 2.0.0) 


1.5 ”长 期 运行 方式 


完成 上 一 节 的 初次 运行 后 ， 你 可 能 会 发 现 一 点 : 一 旦 你 按 下 Ctrl+C， 停 下 标准 输入 输出 ，Logstash 进 程 也 就 随 之 停止 了 。 作 为 一 个 肯定 要 长 期 运行 的 程序 ， 应 该 怎么 处 理 呢 ? 


Qez 本 章节 问题 对 于 一 个 运 维 来 说 应 该 属于 基础 知识 ， 鉴 于 ELK 用 户 很 多 其 实 不 是 运 维 ， 添 加 这 段 内 容 。 


办 法 有 很 多 种 ， 下 面 介绍 四 种 最 常用 的 办 法 。 


1. 标 准 的 service 方 式 


采用 RPM、DEB 发 行 包 安装 的 读者 ， 推 荐 采用 这 种 方式 。 发 行 包 内 ， 都 自 带 有 sysV 或 者 systemd 风 格 的 启动 程序 /配置 ， 你 只 需 


载 /etcinit.d/functions 库 文件 ， 利 用 其 中 的 daemon 函 数 ， 将 Logstash 进 程 作为 后 台 程 序 运行 。 


所 以 ， 你 只 需 把 自己 写 好 的 配置 文件 统一 放 在 /etc/logstash/ 目 录 下 (注意 目录 下 所 有 配置 文件 都 应 该 是 .conf 结 尾 ， 且 不 能 


AY) ， 然 后 运行 service logstash start 命 令 即 可 。 


2. 最 基础 的 nohup 方 式 


这 是 最 简单 的 方式 ， 也 是 Linux 新 手 们 很 容易 搞 混淆 的 一 个 经 典 问 题 : 


command 

command > /dev/null 
command > /dev/null 2>&1 
command & 

command > /dev/null & 
command > /dev/null 2>&1 & 
command &> /dev/null 
nohup command &> /dev/null 


要 直接 使 用 即 可 。 以 RPM 为 例 ，/etcinit.d/logstash 脚 本 中 ,会 加 


其 他 文本 文件 存在 ， 因 为 logstash agent 启 动 的 时 候 是 读 取 全 文件 夹 


请 回答 以 上 命令 的 异同 .…… 


具体 不 一 一 解释 了 。 直 接 说 答案 ， 想 要 维持 一 个 长 期 后 台 运 行 的 Logstash， 你 需要 同时 在 命令 前 面 加 nohup， 后 面 加 &。 


3. 更 优雅 的 screen 方 式 


screen 算 是 Linux 运 维 一 个 中 高 级 技巧 。 通 过 screen 命 令 创建 的 环境 下 运行 的 终端 命令 ,其 父 进程 不 是 sshd 登 录 会 话 ， 而 是 screen。 这 样 就 可 以 既 避 免 用 户 退 出 进程 消失 的 问题 ， 又 随时 能 重新 接管 


终端 继续 操作 。 


创建 独立 的 screen 命 令 如 下 : 


回 


screen -dmS elkscreen 1 


连接 进入 已 创建 的 elkscreen_1 的 命令 如 下 : 


screen -r elkscreen 1 


然后 你 可 以 看 到 一 个 一 模 一 样 的 终端 ， 运 行 Logstash 之 后 ， 不 要 按 Ctrl+C， 而 是 按 Ctrl+A+D 键 ， 断 开 环境 。 想 重新 接管 ， 依 然 用 screen-r elkscreen_1 即 可 。 


如 果 创 建 了 多 个 screen， 查 看 列表 命令 如 下 : 


screen -list 


4. 最 推荐 的 daemontools 方 式 


不 管 是 nohup 还 是 screen， 都 不 是 可 以 很 方便 管理 的 方式 ， 在 运 维 管理 一 个 ELK 集 群 的 时 候 ， 必 须 寻 找 一 种 尽 可 能 简洁 的 办 法 。 所 以 ， 对 于 需要 长 期 后 台 运 行 的 大 量程 序 (注意 大 量 ， 如 果 就 一 个 进 


还 是 学 习 一 下 怎么 写 init 脚 本 吧 ) ， 推 荐 大 家 使 用 一 款 daemontools 工 具 。 


daemontools 是 一 个 软件 名 称 ， 不 过 配置 略 复杂 。 所 以 这 里 我 其 实 是 用 其 名 称 来 指 代 整 个 同类 产品 ， 包 括 但 不 限于 Python 实现 的 supervisord，Perl 实 现 的 ubic，Ruby 实 现 的 god 等 。 


以 supervisord 为 例 ， 因 为 这 个 出 来 得 比较 早 ， 可 以 直接 通过 EPEL 仓 库 安装 。 


yum -y install supervisord --enablerepo=epel 


在 /etc/supervisord.conf 配 置 文件 里 添加 内 容 ， 定 义 你 要 启动 的 程序 ， 如 下 所 示 : 


[program:elkpro 1] 

environment=LS HEAP SIZE=5000m 

directory=/opt/logstash 

command=/opt/logstash/bin/logstash -f /etc/logstash/prol.conf -w 10 -l /var/log/logstash/prol.log 
[program:elkpro_2] 

environment=LS_HEAP_SIZE=5000m 

directory=/opt/logstash 

command=/opt/logstash/bin/logstash -f /etc/logstash/pro2.conf -w 10 -l /var/ 
log/logstash/pro2.log 


然后 启动 service supervisord start 即 可 。 


Logstash 会 以 supervisord 子 进程 的 身份 运行 ， 你 还 可 以 使 用 supervisorctl 命 令 ， 单 独 控制 一 系列 Logstash 子 进程 中 某 一 个 进程 的 启 停 操作 : 


supervisorctl stop elkpro_2 


第 2 章 插件 配置 


插件 是 Logstash 最 大 的 特色 。 各 种 不 同 的 插件 源源 不 断 地 被 创造 出 来 ， 发 布 到 社区 中 供 大 家 使 用 。 本 章 会 按照 插件 的 类 别 ， 对 一 般 场 景 下 的 一 些 常用 插件 做 详细 的 配置 和 用 例 介绍 。 本 章 介 绍 的 插件 包 
括 : 1) 输入 插件 。 基 于 shipper 端 场景 ， 主 要 介绍 STDIN、TCP、File 等 插件 。2) 编 解码 插件 。 编 解码 通常 是 会 被 遗忘 的 环节 ， 但 是 运用 好 了 ， 会 大 大 提高 工作 效率 ， 本 节 介 绍 最 常用 的 JSON 和 multiline 
播 件 。3) 过 滤器 插件 。 名 为 过 滤器 ， 其 实 各 种 数据 裁剪 和 计算 都 可 以 在 这 类 插件 里 完成 ， 是 Logstash 最 强大 的 一 环 。 本 节 会 详细 介绍 grok、date、mutate、ruby、metrics 等 插件 的 妙用 。4) 输出 插件 。 
Logstash 昌 然 经 常 跟 Elasticsearch 并 称 ， 但 是 作为 一 个 日 志 传 输 框架 ， 它 其 实 可 以 输出 数据 到 各 种 不 同 的 地 方 。 比 如 Graphite、HDFS、Nagios 等 等 。 本 章 会 介绍 这 些 常用 的 输出 插件 用 法 。 


2.2 编 解 码 配置 


Codec 是 Logstash 从 1.3.0 版 开始 新 引入 的 概念 (Codec 来 自 Coder/decoder 两 个 单词 的 首 字母 缩写 ) 。 


在 此 之 前 ，Logstash 只 支持 纯 文本 形式 输入 ， 然 后 以 过 滤器 处 理 它 。 但 现在 ,我 们 可 以 在 输入 期 处 理 不 同类 型 的 数据 ， 这 全 是 因为 有 了 Codec 设 置 。 


所 以 ， 这 里 需要 纠正 之 前 的 一 个 概念 。Logstash 不 只 是 一 个 inputlfilterloutput 的 数据 流 ， 而 是 一 个 inputldecodelfilterlencodeloutput 的 数据 流 ! Codec 就 是 用 来 decode、encode 事 件 的 。 


Codec 的 引入 ， 使 得 Logstash 可 以 更 好 、 更 方便 地 与 其 他 有 自 定义 数据 格式 的 运 维 产品 共存 ， 比 如 graphite、fluent、netflow、collectd， 以 及 使 用 msgpack、json、edn 等 通用 数据 格式 的 其 他 产品 


事实 上 ， 我 们 在 第 一 个 “Hello World” 用 例 中 就 已 经 用 过 Codec 了 rubydebug 就 是 一 种 Codec! 虽然 它 一 般 只 会 用 在 stdout 插 件 中 ， 作 为 配置 测试 或 者 调试 的 工具 。 


(o m 这 个 五 段 式 的 流程 说 明 源 自 Pen 版 的 Logstash (后 来 改名 叫 Message: : Passing 模 块 ) 的 设计 。 本 书 稍 后 5.8 节 会 对 该 模块 稍 作 介绍 。 


2.2.1 JSON 编 解码 


在 早期 的 版 本 中 ， 有 一 种 降低 Logstash 过 滤器 的 CPU 负载 消耗 的 做 法 盛行 于 社区 (在 当时 的 Cookbook 上 有 专门 的 一 节 介绍 ) : 直接 输入 预定 义 好 的 JSON 数 据 ， 这 样 就 可 以 省 略 掉 filter/grok 配 置 ! 


这 个 建议 依然 有 效 ， 不 过 在 当前 版 本 中 需要 稍微 做 一 点 配置 变动 ， 因 为 现在 有 专门 的 Codec 设 置 。 


1. 配 置 示例 


社区 常见 的 示例 都 是 用 的 Apache 的 customlog， 不 过 我 觉得 Nginx 是 一 个 比 Apache 更 常用 的 新 型 Web 服 务 器 ， 所 以 我 这 里 会 用 nginx.conf 做 示例 : 


logformat json '{"@timestamp":"S$time_iso8601",' 
*@version":"1",! = 
server_addr",' 
:"Sremote addr", ' 
'"size":$body bytes_sent, ' 
'"responsetime" :$request_time, ' 
"domain" :" $host", ' 7 
rurln:nsurin,， 
status": "Sstatus"}'; 
access_log /var/log/nginx/access.log_json json; 


注意 ， 在 $request_time 和 $body_bytes_sent 变 量 两 头 没有 双 引 号 “， 这 两 个 数据 在 JSON 里 应 该 是 数值 类 型 ! 


重启 Nginx 应 用 ， 然 后 修改 你 的 input/file 区 段 配置 成 下 面 这 样 : 


input { 
file { 
path =>"/var/log/nginx/access.10g json" 
codec =>"json" = 


下 面 访问 一 下 用 Nginx 发 布 的 Web 页 面 ， 然 后 你 会 看 到 Logstash 进 程 输出 类 似 下 面 这 样 的 内 容 : 


{ 

"@timestamp" =>"2014-03-21T18:52:25.000+08:00", 
"@version" =>"1", 

"host" =>"raochenlindeMacBook-Air. local", 
"client" =>"123.125.74.53", 

"size" =>8096, 

"responsetime" =>0.04, 

"domain" =>"www.domain.com", 

"url" =>"/path/to/file.suffix", 

"status" =>"200" 


3.Nginx 代 理 服务 的 日 志 格式 问题 


对 于 一 个 Web 服 务 器 的 访问 日 志 ， 看 起 来 已 经 可 以 很 好 的 工作 了 。 不 过 如 果 Nginx 是 作为 一 个 代理 服务 器 运行 的 话 ， 访 问 日 志 里 有 些 变量 ， 比 如 说 $upstream_response time， 可 能 不 会 一 直 是 数字 ， 
它 也 可 能 是 一 个 “-” 字 符 串 ! 这 会 直接 导致 Logstash 对 输入 数据 验证 报 异常 。 


有 两 个 办 法 解决 这 个 问题 : 


1) 用 sed 在 输入 之 前 先 蔡 换 -成 0。 运 行 Logstash 进 程 时 不 再 读 取 文 件 而 是 标准 输入 ， 这 样 命令 就 成 了 下 面 这 个 样子 : 


tail -F /var/log/nginx/proxy_access.log_json \ 
sed 's/upstreamtime":-/upstreamtime":0/' \ 
/usr/local/logstash/bin/logstash -f /usr/local/logstash/etc/proxylog.conf 


2) 日 志 格式 中 统一 记录 为 字符 串 格式 ( 即 都 带 上 双 引 号 ) ， 然 后 再 在 Logstash 中 用 filter/mutate 揪 件 来 变更 应 该 是 数值 类 型 的 字符 字段 的 值 类 型 。 


有 关 LogStash: : Filters: : Mutate 的 内 容 ， 本 书 稍 后 会 有 介绍 。 


2.2.2 ”多 行事 件 编码 


有 些 时 候 ， 应 用 程序 调试 日 志 会 包含 非常 丰富 的 内 容 ， 为 一 个 事件 打印 出 很 多 行内 容 。 这 种 日 志 通 常 都 很 难 通过 命令 行 解析 的 方式 做 分 析 。 


而 Logstash 正 为 此 准备 好 了 codec/muiltiline 揪 件 ! 当然 ，multiline 揪 件 也 可 以 用 于 其 他 类 似 的 堆栈 式 信息 ， 比 如 Linux 的 内 核 


配置 示例 如 下 : 


input { 
stdin { 
codec => multiline { 
pattern =>"^\[" 
negate => true 
what =>"previous" 


} 


运行 Logstash 进 程 ， 然 后 在 等 待 输入 的 终端 中 输入 如 下 几 行 数据 : 


[Aug/08/08 14:54:03] hello world 
[Aug/08/09 14:54:04] hello logstash 
hello best practice 
hello raochenlin 
[Aug/08/10 14:54:05] the end 


你 会 发 现 Logstash 输 出 下 面 这 样 的 返回 : 


{ 

"@timestamp" =>"2014-08-09T13:32:03.3682", 
"message" =>" [Aug/08/08 14:54:03] hello world\n", 
"@version" =>"1", 

"host" =>"raochenlindeMacBook-Air.local" 


} 


"@timestamp" =>"2014-08-09T13:32:24.3592", 
"message" =>"[Aug/08/09 14:54:04] hello logstash\n\n hello best practice\n\n 
hello raochenlin\n", 
"@version" =>"1", 
"tags" => [ 
[0] "multiline" 


] 


, 
"host" =>"raochenlindeMacBook-Air.local" 


你 看 ， 后 面 这 个 事件 ， 在 “message” 字 段 里 存储 了 三 行 数 据 ! 


Os 输出 的 事件 中 没有 最 后 一 行 的 “the end” 字 符 串 ， 这 是 因为 你 最 后 输入 的 回 车 符 \n 并 不 匹配 设 定 的 ^[ 正 则 表达 式 ，Logstash 还 得 等 下 一 行 数据 直到 匹配 成 功 后 才 会 输出 这 个 事件 。 


其 实 这 个 插件 的 原理 很 简单 ， 就 是 把 当前 行 的 数据 添加 到 前 面 一 行 后 面 ， 直 到 新 进 的 当前 行 匹配 ^\[ 正 则 为 止 。 这 个 正则 还 可 以 用 grok 表 达 式 ， 稍 后 你 就 会 学 习 这 方面 的 内 容 。 具 体 的 Java 日 志 正 则 
: https://github.com/logstash-plugins/logstash-patterns-core/blob/master/patterns/java 


a 


说 到 应 用 程序 日 志 ，Log4j 肯 定 是 第 一 个 被 大 家 想到 的 ， 使 用 codec/multiline 也 确实 是 一 个 办 法 。 


不 过 ， 如 果 你 本 身 就 是 开发 人 员 ， 或 者 可 以 推动 程序 修改 变更 的 话 ，Logstash 还 提供 了 另 一 种 处 理 Log4j 的 方式 : input/log4j。 与 codecmultiline 不 同 ， 这 个 插件 是 直接 调用 了 
org.apache.log4j.spiLoggingEvent 处 理 TCP 端 口 接收 的 数据 。 后 面 3.6 节 会 详细 讲述 Log4j 的 用 法 。 


2.2.3 ”网 络 流 编码 


NetFlow 是 Cisco 发 明 的 一 种 数据 交换 方式 。NetFlow 提 供 网 络 流量 的 会 话 级 视图 ， 记 录 下 每 个 TCP/IP 事 务 的 信息 。 它 的 目的 不 是 像 tcpdump 那 样 提供 网 络 流量 的 完整 记录 ， 而 是 汇集 起 来 形成 更 易于 
管理 和 易 读 的 流向 和 容量 的 分 析 监 控 。 


Cisco 上 配置 NetFlow 的 方法 ， 请 参照 具体 的 设备 说 明 ， 主 要 是 设 定 采集 服务 器 的 地 址 和 端口 ， 为 运行 Logstash 服 务 的 主机 地 址 和 端口 (示例 中 为 9995) 。 


采集 NetFlow 数 据 的 Logstash 服 务 配置 示例 如 下 : 


input { 
udp { 
port => 9995 
codec => netflow { 
definitions =>"/opt/logstash-1.4.2/lib/logstash/codecs/netflow/netflow.yaml" 
versions => [5] 


} 


} 
output { 
elasticsearch { 
index =>"logstash_netflow5-%{+YYYY.MM.dd}" 
host =>"localhost" 
} 


由 于 该 插件 生成 的 字段 较 多 ， 所 以 建议 对 应 的 Elasticsesarch 索 引 模板 也 需要 单独 提交 : 


# curl -XPUT localhost:9200/_template/logstash_netflow5 -d '{ 


"template" : "logstash_netflow5-*", 
"settings": { 
"index.refresh_interval": "5s" 
r 
"mappings" : { 


"default " : { 


"all" : {"enabled" : false}, 

"properties" : { 
"@version": { "index": "analyzed", "type": "integer" }, 
"@timestamp": { "index": "analyzed", "type": "date" }, 
"netflow": { 


"dynamic": true, 

"type": "object", 

"properties": { 
"version": { "i 
"flow_seq_num 
"engine type" 
"engine id": { "index": 


ndex": "analyzed", "typ "integer" }, 
{ "index": "not_analyzed", "type" 
{ "index": "not_analyzed", "type 
"not_analyzed", "type": 


"long" }, 
"integer" }, 
"integer" }, 


"sampling algorithm": { "index": "not_analyzed", "type": "integer" }, 
"sampling interval": { "index": "not_analyzed", "type": "integer" }, 
"flow_records": { "index": "not_analyzed", "type": "integer" }, 
"ipv4_src addr": { "index": "analyzed", "type": "ip" }, 


"ipv4 _dst_addr": { 
"ipv4 next hop": { 


"analyzed", "type 
"analyzed", "type 


l 


"input snmp": { "index": "not_analyzed", "type" 
"output_snmp": { "index": "not_analyzed", "type": "long" }, 
"in pkts": { "index": "analyzed", "type": "long" }, 


"in bytes": { "index": "analyzed", "type": "long" }, 
"first_switched": 


{ "index": "not_analyzed", "type": "date" }, 


"last_switched": "index": "not_analyzed", "type": "date" }, 
"14 src port": { "index": "analyzed", "type": "long" }, 
"14 dst port": : "analyzed", "type": "long" }, 
"tcp flags": { "index": "analyzed", "type" integer" }, 
"protocol": { "index": "analyzed", "type 

": { "index": "analyzed", 

: { "index' "analyzed", 


"dst_as" : { "index": nalyzed", Fs 
"src_mask": { "index": 
"dst_mask": { "index": "analyzed", "type": "integer" } 


Elasticsearch 索 引 模板 的 功能 ， 本 书 稍 后 12.6 节 会 有 详细 介绍 。 


2.24 collectd 输 入 


collectd 是 一 个 守护 (daemon) 进程 ，F 


来 收集 系统 性 能 和 提供 各 种 存储 方式 来 存储 不 同 值 的 机 制 。 它 会 在 系统 运行 和 存储 信息 时 周期 性 的 统计 系统 的 相关 统计 信息 。 利 上 


统 性 能 瓶颈 (如 作为 性 能 分 析 performance analysis) 和 预测 系统 未 来 的 load (如 能 力 部 署 capacity planning) 等 


下 面 简单 介绍 一 下 : collectd 的 部 署 以 及 与 Logstash 对 接 的 相关 配置 实例 。 


1.collectd 的 安装 


collectd 的 安装 同样 有 两 种 方式 ， 使 用 官方 软件 仓库 安装 或 源 代码 安装 。 


使 用 官方 软件 仓库 安装 (推荐 ) 


collectd 官 方 有 一 个 隐藏 的 软件 仓库 : https://pkg.ci.collectd.org， 构 建 有 RHEL/CentOS (rpm) , Debian/Ubuntu (deb) 的 软件 包 ， 如 果 你 使 


这 些 信息 有 助 了 


查找 当前 系 


目前 collectd 官 方 维护 3 个 版 本 : 5.4、5.5、5.6。 根 据 需要 选择 合适 的 版 本 仓库 。 下 


+ Debian/Ubuntu 仓 库 安 装 : 


回 


示例 安装 5.5 版 本 的 方法 。 


的 操作 系统 属于 上 述 的 ， 那 么 推荐 使 


软件 仓库 安 


echo "deb http://pkg.ci.collectd.org/deb $ (lsb release -sc) collectd-5.5" | sudo tee /etc/apt/sources.list.d/collectd.list 


curl -s https://pkg.ci.collectd.org/pubkey.asc | sudo apt-key add - 
sudo apt-get update && sudo apt-get install -y collectd 


注意 ，Debian/Ubuntu 软 件 仓库 自 带 有 collectd 软 件 包 ， 如 果 软 件 仓库 自 带 的 版 本 足够 你 使 


. RHELV/CentOS 仓 库 安 装 : 


， 那 么 可 以 不 


添加 仓库 ， 直 接 通过 apt-get install collectd 即 可 。 


cat > /etc/yum.repos.d/collectd.repo <<EOF 
[collectd-5.5] 
name=collectd-5.5 


baseurl=http://pkg.ci.collectd.org/rpm/collectd-5.5/epel-\$releasever-\$basearch/ 


gpgcheck=1 

gpgkey=http: //pkg.ci.collectd.org/pubkey.asc 
EOF 

yum install -y collectd 


你 如 果 需 要 使 


源码 安装 collectd 


其 他 collectd 揪 件 ， 此 时 也 可 一 并 安装 对 应 的 collectd-xxxx 软 件 包 。 


要 选择 对 应 版 本 的 源码 下 载 : 


collectd 目 前 维护 3 个 版 本 : 5.4、5.5、5.6。 源 代码 编译 安装 时 同样 可 以 根据 自己 需 


wget http://collectd.org/files/collectd-5.4.1.tar.gz 
tar zxvf collectd-5.4.1.tar.gz 
cd collectd-5.4.1 


./configure --prefix=/usr --sysconfdir=/etc --localstatedir=/var --libdir=/usr/lib --mandir=/usr/share/man --enable-all-plugins 


make && make install 


源 代码 编译 安装 需要 预先 解决 好 各 种 环境 依赖 ， 在 RedHat 平 台 上 要 提前 安装 如 下 软件 包 : 


rpm -ivh "http://dl.fedoraproject.org/pub/epel/6/i386/epel-release-6-8.noarch.rpm" 
yum -y install libcurl libcurl-devel rrdtool rrdtool-devel perl-rrdtool rrdtool-prel libgcrypt-devel gcc make gcc-c++ liboping liboping-devel perl-CPAN net-snmp net-snmp-devel 


安装 启动 脚本 如 下 : 


cp contrib/redhat/init.d-collectd /etc/init.d/collectd 
chmod +x /etc/init.d/collectd 


启动 collectd 如 下 : 


service collectd start 


2.collectd 的 配置 


以 下 配置 可 以 实现 对 服务 器 基本 的 CPU、 内 存 、 网 卡 流量 、 磁 盘 /O 以 及 磁盘 空间 占用 情况 的 监控 : 


Hostname "host.example.com" 

LoadPlugin interface 

LoadPlugin cpu 

LoadPlugin memory 

LoadPlugin network 

LoadPlugin df 

LoadPlugin disk 

<Plugin interface> 
Interface "eth0" 
IgnoreSelected false 

</Plugin> 

<Plugin network> 

<Server "10.0.0.1""25826"> ## Logstash 的 IP 地 址 和 collectd 的 数据 接收 端口 号 

</Server> 

</Plugin> 


3.Logstash 的 配置 


以 下 配置 实现 通过 Logstash 监 听 25826 端 口 ， 接 收 从 collectd 发 送 过 来 的 各 项 检测 数据 。 


注意 ，logstash-filter-collectd 插 件 本 身 需 要 单独 安装 ，logstash 插 件 安装 说 明之 前 已 经 讲 过 : 


bin/logstash-plugin install logstash-filter-collectd 


Logstash 默 认 自 带 有 collectd 的 codec 编 码 插件 。 


推荐 配置 示例 如 下 : 


udp { 
port => 25826 
buffer_size => 1452 
workers => 3 # Default is 2 
queue_size => 30000 # Default is 2000 
codec => collectd { } 
type =>"collectd" 


下 面 是 简单 的 一 个 输出 结果 : 


"logstash-2014.12.11", 
collectd", 
dS6vVz4aRtK5xS86kwjZnw", 
: null, 

source": { 

"host": "host.example.com", 
"@timestamp": "2014-12-11T06:28:52.1182", 
"plugin": "interface", 

"plugin instance": "eth0", 
"collectd_type": "if packets", 
"rx": 19147144, 

"tx": 3608629, 


"@version": "1", 

"type": "collectd", 

"tags": [ 

"_grokparsefailure" 
f; 

"sort": [ 

1418279332118 

] 

} 

参考 资料 


- collectd 支 持 收集 的 数据 类 型 : http://git.verplant.org/? p=collectd.git; a=blob; hb=master; {=README 
- collectd 收 集 各 数据 类 型 的 配置 参考 资料 : http://collectd.org/documentation/manpages/collectd.conf.5.shtml 


- collectd 简 单 配置 文件 示例 : https://gist.github.com/untergeek/ab85cb86a9bf39 Fl fe6d 


2.3 ”过 滤器 配置 


有 丰富 的 过 滤器 插件 ， 是 Logstash 威 力 如 此 强大 的 重要 因素 。 名 为 过 滤器 ， 其 实 提供 的 不 单单 是 过 滤 的 功能 。 下 面 我 们 就 会 重点 介绍 几 个 插件 ， 它 们 扩展 了 进入 过 滤器 的 原始 数据 ， 进 行 复杂 的 逻辑 处 
理 ， 甚 至 可 以 无 中 生 有 地 添加 新 的 Logstash 事 件 到 后 续 的 流程 中 去 ! 


2.3.1 date 时间 处 理 


之 前 章节 已 经 提 过 ，|logstash-filter-date 揪 件 可 以 用 来 转换 你 的 日 志 记 录 中 的 时 间 字符 串 ， 变 成 LogStash: : Timestamp 对 象 ， 然 后 转 存 到 @timestamp 字 段 里 。 


告 因为 在 稍 后 的 logstash-output-elasticsearch 中 常用 的 %{+YYYY.MM.dd} 这 种 写法 必须 读 取 @timestamp 数 据 ， 所 以 一 定 不 要 直接 删 掉 这 个 字段 保留 自己 的 字段 ， 而 是 应 该 用 logstash-filter-date 转 
换 后 删除 自己 的 字段 ! 


这 在 导入 旧 数 据 的 时 候 固 然 非常 有 用 ， 而 在 实时 数据 处 理 的 时 候 同样 有 效 ， 因 为 一 般 情况 下 数据 流程 中 我 们 都 会 有 缓冲 区 ， 导 致 最终 的 实际 处 理 时 间 跟 事件 产生 时 间 略 有 偏差 。 


oi 强烈 建议 打开 Nginx 的 access_log 配 置 项 的 buffer 参 数 ， 对 极限 响应 性 能 有 极 大 提升 ! 


1 配置 示例 
logstash-filter-date 插 件 支 持 五 种 时 间 格 式 : 


“ISO8601: 类 似 “2011-04-19T03: 44: 01.103Z” 这 样 的 格式 。 具 体 Z 后 面 可 以 有 “08: 00” 也 可 以 没有 ，“.103” 这 个 也 可 以 没有 。 常 用 场景 里 来 说 ，Nginx 的 log_format 配 置 里 就 可 以 使 用 
$time_iso8601 变 量 来 记录 请 求 时 间 成 这 种 格式 。 


- UNIX: UNIX 时 间 惟 格式 ， 记 录 的 是 从 1970 年 起 始 至 今 的 总 秒 数 。Squid 默 认 日 志 格 式 中 就 使 用 了 这 种 格式 。 
< UNIX_MS: 这 个 时 间 戳 则 是 从 1970 年 起 始 至 今 的 总 毫秒 数 。 据 我 所 知 ，JavaSctipt 里 经 常 使 用 这 个 时 间 格 式 。 
:TAIG4N: TAI64N 格 式 比较 少见 ， 是 这 个 样子 的 : @4000000052f88ea32489532c。 我 目前 只 知道 常见 应 用 中 ，qmail 会 用 这 个 格式 。 
+ Joda-Time 库 : Logstash 内 部 使 用 了 Java 的 Joda 时 间 库 来 作 时 间 处 理 。 所 以 我 们 可 以 使 用 Joda 库 所 支持 的 时 间 格 式 来 作 具 体 定 义 。Joda 时 间 格 式 定义 见 表 2-1。 


表 2-1 Joda 时 间 库 格式 


; 


nae | ax | aa | 示例 

K i 

f i 

Z Pacific Standard Time; PST 

Z -0800; -08:00; America/Los_Angeles 
: 


下 面 我 们 写 一 个 Joda 时 间 格 式 的 配置 作为 示例 : 


oO 


ies) 


J 


filter { 
grok { 


match => ["message", "%{HTTPDATE:logdate}"] 


} 
date { 

match => ["logdate", "dd/MMM/yyyy:HH:mm:ss 2"] 
} 


注意 ， 时 区 偏 移 量 只 需要 用 一 个 字母 Z 即 可 。 


2. 时 区 问题 的 解释 


VA: 为 什么 @timestamp 比 我 们 晚 了 8 个 小 时 ? 怎么 修改 成 北京 时 间 ? 


很 多 中 国 


T 
HN 
Jk 
cil 
> 


其 实 ，Elasticsearch 内 部 ， 对 时 间 类 型 字段 ， 是 统一 采用 UTC 时 间 ， 存 成 long 长 整形 数据 的 ! 对 日 志 统一 采用 UTC 时 间 存 储 ， 是 国际 安全 / 运 维 界 的 一 个 通 识 
个 时 区 里 一 一 不 像 中 国 ， 地 域 横 跨 五 个 时 区 却 只 用 北京 时 间 。 


欧美 公司 的 服务 器 普遍 广泛 分 布 在 多 


对 于 页 面 查看 ，ELK 的 解决 方案 是 在 Kibana 上 ， 读 取 浏 览 器 的 当前 时 区 ， 然 后 在 页 面 上 转换 时 间 内 容 的 显示 。 


所 以 ， 建 议 大 家 接受 这 种 设 定 。 否 则 ， 即 便 你 用 .getLocalTime 修 改 ， 也 还 要 面临 在 Kibana 过 去 修改 ,以 及 Elasticsearch 原 有 的 [“now-1h”TO “now”] 这 种 方便 的 搜索 语句 无 法 正常 使 用 的 烛 答 。 


以 上 ， 请 读者 自行 项 酌 。 


2.3.2 grok 正 则 捕获 


grok 是 Logstash 最 重要 的 插件 。 你 可 以 在 grok 里 预定 义 好 命名 正则 表达 式 ， 在 稍 后 (grok 参 数 或 者 其 他 正则 表达 式 里 ) 引用 它 。 


1. 正 则 表达 式 语法 


运 维 工程 师 多 多 少 少 都 会 一 点 正则 。 你 可 以 在 grok 里 写 标准 的 正则 ， 像 下 面 这 样 : 


\s+ (?<request_time>\d+ (?:\.\d+) ?) \s+ 


这 个 正则 表达 式 写 法 对 于 Per| 或 者 Ruby 程 序 员 应 该 很 熟悉 了 ，Python 程 序 员 可 能 更 习惯 写 (? P<name>pattern) ， 没 办 法 ， 适 应 一 下 吧 。 


现在 给 我 们 的 配置 文件 添加 第 一 个 过 滤器 区 段 配置 。 配 置 要 添加 在 输入 和 输出 区 段 之 间 (Logstash 执 行 区 段 的 时 候 并 不 依赖 于 次 序 ， 不 过 为 了 自己 看 得 方便 ， 还 是 按 次 序 书写 吧 ) : 


input {stdin{}} 
filter { 
grok { 
match => { 
"message" =>"\s+ (?<request_time>\d+ (?:\.\d+) ?) \s+" 
} 


} 
} 
output {stdout{codec=>rubydebug}} 


运行 Logstash 进 程 然后 输入 “begin 123.456 end”， 你 会 看 到 类 似 下 面 这 样 的 输出 : 


{ 

"message" =>"begin 123.456 end", 
"@version" =>"1", 
"@timestamp" =>"2014-08-09T11:55:38.1862", 
"host" =>"raochenlindeMacBook-Air.local", 
"request time" =>"123.456" 

} 


漂亮 ! 不 过 数据 类 型 好 像 不 太 满意 ……request_time 应 该 是 数值 而 不 是 字符 串 。 


我 们 已 经 提 过 稍 后 会 学 习 用 LogStash: : Filters: : Mutate 来 转换 字段 值 类 型 ， 不 过 在 grok 里 ， 其 实 有 自己 的 魔法 来 实现 这 个 功能 ! 


2.grok 表 达 式 语法 


grok 支 持 把 预定 义 的 grok 表 达 式 写 入 到 文件 中 ， 官 方 提供 的 预定 义 grok 表 达 式 见 : https://github.com/logstash-plugins/logstash-patterns-core/tree/master/patterns, 


下 面 是 从 官方 文件 中 摘抄 的 最 简单 但 是 足够 说 明 用 法 的 示例 : 


USERNAME [a-zA-20-9. -]+ 
USER %{USERNAME } 


第 一 行 ， 用 普通 的 正则 表达 式 来 定义 一 个 grok 表 达 式 ; 第 二 行 ， 通 过 打印 赋值 格式 (sprintf format) ， 用 前 面 定义 好 的 grok 表 达 式 来 定义 另 一 个 grok 表 达 式 。 


grok 表 达 式 的 打印 复制 格式 的 完整 语法 见 下 行 示例 。 其 中 data_type 目 前 只 支持 两 个 值 : int 和 float。 


%{PATTERN_NAME:capture_name:data_type} 


所 以 我 们 可 以 改进 我 们 的 配置 成 下 面 这 样 : 


filter { 
grok { 
match => { 
"message" =>"%{WORD} ®{NUMBER:request_time:float} %{WORD}" 
} 


重新 运行 进程 然后 可 以 得 到 如 下 结果 : 


"message" =>"begin 123.456 end", 
"@version" =>"1", 
"@timestamp" =>"2014-08-09T12:23:36.6342", 
"host" =>"raochenlindeMacBook-Air.local", 
"request time" => 123.456 


这 次 request_time 变 成 数值 类 型 了 。 


3. 最 佳 实践 


实际 运 
filter/grok 的 patterns_dir 选 项 来 指明 。 


中 ， 我 们 需要 处 理 各 种 各 样 的 日 志文 件 ， 如 果 你 都 是 在 配置 文件 里 各 


0 果 你 把 “message” 里 所 有 的 信息 都 grok 到 不 同 的 字段 了 ， 数 


自 写 一 行 自己 的 表达 式 ， 就 完全 不 可 管理 了 。 所 以 ， 我 们 建议 是 把 所 有 的 grok 表 达 式 统一 写 入 到 一 个 地 方 。 然 后 


overwrite 参 数 来 重 写 默 认 的 


E 复 存储 了 两 份 。 所 以 你 可 以 用 remove field 参 数 来 删除 掉 message 字 段 ， 或 者 上 


居 实 质 上 就 相当 于 是 条 


pi 
message 字 段 ， 只 保留 最 重要 的 部 分 。 
重 写 参数 的 示例 如 下 : 
filter { 
grok { 
=>(["/path/to/your/own/patterns"] 


patterns dir 


match => { 
%{SYSLOGBASE} %{DATA:message}" 


"message" =>" 
overwrite => ["message 
} 


可 


4 .高 级 用 法 


“多 行 
Em (? m) 标记 。 如 下 所 示 : 


match => { 
"message" =>" (?m) \s+(?<request_time>\d+(?:\.\d+) ?)\st" 


”多 项 选择 


文档 中 ， 都 说 明 logstash-filters-grok 插 件 的 match 参 数 应 该 接受 的 是 一 个 Hash 值 。 但 是 


没 问题 。 所 以 ， 我 们 这 里 其 实 可 以 传递 多 个 正则 来 


更 多 有 关 grok 正 则 性 能 的 最 佳 实践 (比如 timeout_millis 等 配置 参数 ) ， 请 参考 : https://www.elastic.co/blog/do-you-grok-grok, 


匹配 在 和 codec/multiline 搭 配 使 用 的 时 候 ， 需 要 注意 一 个 问题 ，grok 正 则 和 


有 时 候 我 们 会 碰 上 一 个 日 志 有 多 种 可 能 格式 的 情况 。 这 时 候 要 写成 单一 正则 


普通 正则 一 样 ， 黑 认 是 不 支持 匹配 回 车 换行 的 。 就 像 你 需要 =~//m 一 样 也 需要 单独 指定 ， 具 体 写法 是 在 表达 式 开始 位 


就 比较 困难 ， 或 者 全 用 | 隔 开 又 比较 丑陋 。 这 时 候 ，Logstash 的 语法 提供 给 我 们 一 个 有 趣 的 解决 方式 。 
[这 种 方式 书写 的 ， 所 以 其 实现 在 传递 Array 值 给 match 参 数 也 完全 


因为 早期 的 Logstash 语 法 中 Hash 值 也 是 


匹配 同一 个 字段 : 


"(?<request_time>\d+(?:\.\d+) ?)", 


[ 
"message", 

, "S{SYSLOGBASE} %{DATA:message}", 

r 


"message", "(?m)%{WORD}" 


Logstash 会 按照 这 个 定义 次 序 依次 尝试 匹配 ， 到 匹配 成 功 为 止 。 虽 说 效果 跟 


| 分 割 写 个 大 大 的 正则 是 一 样 的 ， 但 是 可 阅读 性 好 了 很 多 。 


O., 强烈 建议 每 个 人 都 要 使 用 Grok Debugger (http://grokdebug.herokuapp.com/) 来 调试 自己 的 grok 表 达 式 。 


2.3.3 dissect 解 析 


grok 作 为 Logstash 最 广为人知 的 插件 ， 在 性 能 和 资源 损耗 方 


解析 字段 的 插件 : dissect。 当 


志 格 式 并 没有 那么 复杂 ，Logstash 开 发 团队 在 5.0 版 新 添加 了 另 一 个 


是 解析 syslog 的 示例 。 


同样 也 广 为 诉 病 。 为 了 应 对 这 个 情况 ， 同 时 也 考虑 到 大 多 数 情况 下 
dissect 揪 件 更 快 地 完成 解析 工作 。 下 | 


日 志 格 式 有 比较 简明 的 分 隔 标志 位 上 且 重 复 性 较 大 的 时 候 ， 可 以 使 


filter { 


dissect { 
mapping => { 
"message" => "S{ts} %{+ts} S{+ts} %{src} %{} %{prog}[%{pid}]: %{msg}" 
} 
convert_datatype => { 
pid => "int" 
} 
} 
} 
我 们 看 到 上 面 使 用 了 和 Grok 很 类 似 的 % 人 } 语 法 来 表示 字段 ， 这 显然 是 基于 习惯 延续 的 考虑 。 不 过 示例 中 %{+ts} 的 加 号 就 不 一 般 了 。dissect 除 了 字段 外 面 的 字符 串 定位 功能 以 外 ， 还 通过 几 个 特殊 符号 来 
处 理 字段 提取 的 规则 : 
“ %{+key} 这 个 + 表示 前 面 已 经 捕获 到 一 个 key 字 段 了 ， 而 这 次 捕获 的 内 容 自 动 添补 到 之 前 key 字 段 内 容 的 后 面 。 
“ %{+key/2} 这 个 /2 表示 在 有 多 次 捕获 内 容 都 填 到 key 字 段 里 的 时 候 ， 拼 接 字符 串 的 顺序 谁 前 谁 后 。/2 表 示 排 第 2 位 。 
“ %{? stringy 这 个 ? 表示 这 块 只 是 一 个 占 位 ， 并 不 会 实际 生成 捕获 字段 存 到 Event 里 面 。 


< Y{? stting}y%of&cstring} 


当 同 样 捕 获 名 称 都 是 stting， 但 是 一 个 ?和 一 个 & 在 一 起 的 时 候 ， 表 示 这 是 一 个 键 值 对 。 


比如 对 http://rizhiyi.com/index.do? id=123 写 这 么 一 段 配置 : 


http://%{domain}/%{?url}?%{ ?argl }=%{éargl} 


则 最 终生 成 的 Event 内 容 是 这 样 的 : 


{ 
id => "1 
} 


domain => "rizhiyi.com", 
33" 


2.3.4 ”GeolP 地 址 查询 


GeolP 是 最 常见 的 免费 iP 地址 归 类 查询 库 ， 同 时 也 有 收费 版 可 以 采购 。GeolP 库 可 以 根据 iP 地址 提供 对 应 的 地 域 信息 ， 包 括 国 别 、 省 市 、 经 纬度 等 ， 对 于 可 视 化 地 图 和 区 域 统计 非常 有 用 。 


配置 示例 如 下 : 


filter { 
geoip { 
source =>"message" 


} 


运行 结果 如 下 : 


{ 
"message" =>"183.60.92.253", 
"@version" 要 
"@timestamp" =>"2014-08-07T10:32:55.6102", 
"host" =>"raochenlindeMacBook-Air.local", 
"geoip" => { 
"ip" =>"183.60.92.253", 
"country_code2" =>"CN", 
"country _code3" 
"country name 
"continent_code" 
"region name" =>"30", 
"city_name" =>"Guangzhou", 
"latitude" =>23.11670000000001, 
"longitude" =>113.25, 
"timezone" =>"Asia/Chongqing", 
"real region name" =>"Guangdong", 
"location" => [ 

[0] 113.25, 

[1] 23.11670000000001 


GeolP 库 数据 较 多 ， 如 果 你 不 需要 这 么 多 内 容 ， 可 以 通过 fields 选 项 指定 自己 所 需要 的 。 下 例 为 全 部 可 选 内 容 : 


filter { 
geoip { 
fields => ["city_name", "continent_code", "country code2", 
"country _code3", "country name", "dma_code", "ip", "latitude", 
"longitude", "postal_code", "region name", "timezone"] 


需要 注意 的 是 : geoip.location 是 Logstash 通 过 latitude 和 longitude 额 外 生成 的 数据 。 所 以 ， 如 果 你 是 想 要 经 纬度 又 不 想 重复 数据 的 话 ， 应 该 像 下 面 这 样 做 : 


filter { 
geoip { 
fields => ["city_name", "country_code2", "country name", "latitude", 
"longitude", "region_name"] 
remove_field => ["[geoip][latitude]", "[geoip] [longitude]"] 


还 要 注意 : geoip 插 件 的 “source” 字 段 可 以 是 任 一 处 理 后 的 字段 ， 比 如 “client_ip” ， 但 是 字段 内 容 却 需要 小 心 ! Geolp 库 内 只 存 有 公共 网 络 上 的 IP 信 息 ， 查 询 不 到 结果 的 ， 会 直接 返回 null， 而 
Logstash 的 Geolp 插 件 对 null 结 果 的 处 理 是 : “不 生成 对 应 的 geoip. 字 段 ”。 所 以 读者 在 测试 时 ， 如 果 使 用 了 诸如 127.0.0.1、172.16.0.1、182.168.0.1、10.0.0.1 等 内 网 地 址 ， 会 发 现 没有 对 应 输出 ! 


2.3.5 JSON 编 解码 


在 上 一 章 ， 已 经 讲 过 在 Codec 中 使 用 JSON 编 码 。 但 是 ， 有 些 日 志 可 能 是 一 种 复合 的 数据 结构 ， 其 中 只 有 一 部 分 记录 是 JSON 格 式 的。 这 时 候 ， 我 们 依然 需要 在 filter 阶 段 ， 单 独 启用 JSON 解 码 插件 。 


配置 示例 如 下 : 


运行 结果 如 下 : 


{ 

"@version": "1", 

"@timestamp": "2014-11-18T08:11:33.0002", 

"host": "web121.mweibo.tc.sinanode.com", 

"message": "{\"uid\":3081609001, \"type\":\"signal\"}", 
"jsoncontent": { 

"uid": 3081609001, 

"type": "signal" 

} 

} 


wg 


层 结 构 新 的 结果 如 下 : 


如 果 不 打算 使 用 多 层 结构 的 话 ， 删 掉 target 配 置 即 可 。 咎 


"@version": "1", 

"@timestamp": "2014-11-18T08:11:33.0002", 

"host": "web121.mweibo.tc.sinanode.com", 

"message": "{\"uid\":3081609001, \"type\":\"signal\"}", 
"uid": 3081609001, 

"type": "signal" 

} 


2.3.6 key-value 切 分 


在 很 多 情况 下 ， 日 志 内 容 本 身 都 是 一 个 类 似 于 key-value 的 格式 ， 但 是 格式 具体 的 样式 却 是 多 种 多 样 的 。Logstash 提 供 logstash-filter-kv 插 件 ， 帮 助 处 理 不 同样 式 的 key-value 日 志 ， 变 成 实际 的 


LogStash: : Event 数 据 。 


配置 示例 如 下 : 
filter { 
ruby { 
init =>"@kname = ['method', 'uri', 'verb']" 
ruby { 
init => "@kname = ['method', 'uri', 'verb']" 
code => " 


new_event = LogStash: :Event .new (Hash [@kname. zip (event .get ('request') .split("|"))]) 
new_event.remove ('@timestamp') 
event . append (new_event) "" 


init => "@kname = ['url_path', 'url_args']" 

code => " T 7 
new event = LogStash: :Event.new (Hash [@kname. zip (event .get ('uri').split('?'))]) 
new_event . remove ('@timestamp') 
event . append (new_event) "" 


prefix =>"url_" 

source =>"url_args" 

field split =>"6" 

remove field => [ "url_args", "uri", "request" ] 


Nginx 访 问 日 志 中 的 $request， 通 过 这 段 配置 ， 可 以 详细 切 分 成 method、url_path、verb、urla、url_bhttp://www.hzcourse.comyVresource/readBook? 


path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


进一步 ， 如 果 url_args 中 有 过 多 字段 ， 可 能 导致 Elasticsearch 集 群 因为 频繁 update mapping 或 者 消耗 太 多 内 存在 cluster state 上 而 宕 机 。 所 以 ， 更 优 的 选择 是 只 保留 明确 有 


分 舍 去 ， 如 下 所 示 : 


的 url_args 内 容 ， 其 他 部 


kv { 
prefix =>"url_" 
source =>"url args" 
field split =>"&" 
include_keys => [ "uid", "cip" ] 
remove field => [ "url_args", "uri", "request" ] 


上 例 即 表示 ， 除 了 url_uid 和 url_cip 两 个 字段 以 外 ， 其 他 的 url_* 都 不 保留 。 


2.3.7 ” ”metrics 数值 统计 


logstash-filter-metrics 揪 件 是 使 用 Ruby 的 Metriks 模 块 来 实现 在 内 存 里 实时 地 计数 和 采样 分 析 。 该 模块 支持 两 个 类 型 的 数值 分 析 : meter 和 timer。 下 面 分 别 举 例 说 明 。 


1.Meter 示 例 (速率 阔 值 检测 ) 


Web 访 问 日 志 的 异常 状态 码 频率 是 运 维 人 员 会 非常 关心 的 一 个 数据 。 通 常 我 们 的 做 法 是 通过 Logstash 或 者 其 他 日 志 分 析 脚 本 ， 把 计数 发 送 到 rrdtoo| 或 者 graphite 里 面 ， 然 后 再 通过 check_graphite 脚 


本 之 类 的 东西 来 检查 异常 并 报警 。 


事实 上 这 个 事情 可 以 直接 在 Logstash 内 部 就 完成 。 比 如 如 果 最 近 一 分 钟 504 请 求 的 个 数 超过 100 个 就 报警 ， 如 下 所 示 : 


filter { 
metrics { 
meter => "error %{status}" 
add_tag => "metric" 
ignore_older_than => 10 
} 
if "metric" in [tags] { 
ruby { 
code => "event.cancel if event.get(' [error 504] [rate lm]') * 60 > 100" 
} 
} 


output { 
if "metric" in [tags] { 
exec { 
command => "echo \"Out of threshold: %{[error 504] [rate_1m]}\"" 
} 


这 里 需要 注意 *60 的 含义 。metrics 模 块 生成 的 rate_1m/5m/15m 意 思 是 : 最 近 1、5、15 分 钟 的 每 秒 速率 ! 


2.Timer 示 例 (box and whisker 异 常 检 测 ) 


官 版 的 logstash-filter-metrics 揪 件 只 适用 于 metric 事 件 的 检查 。 由 插件 生成 的 新 事件 内 部 不 存 有 来 自 input 区 段 的 实际 数据 信息 。 所 以 ， 要 完成 我 们 的 百分比 分 布 箱 体 检测 ， 需 要 首先 对 代码 稍微 做 几 


行 变动 ， 即 在 metric 的 timer 事 件 里 加 一 个 属性 ， 存 储 最 近 一 个 实际 事件 的 数值 : 


def register 


@last = {} 
end 
def filter (event) 


@last [event.sprintf (name) ] = event.sprintf (value) .to_f 
end 
def flush(options = {}) 


@metric_timer.each_pair do |name, metric|-: 
event.set ( “[#{name}][last]” , @last [name] ) 
metric.clear if should clear? 

end T 


end 


有 了 这 个 Last 值 ， 然 后 我 们 就 可 以 用 如 下 配置 来 探测 异常 数据 了 : 


filter { 
metrics { 


} 


timer => {"rt" =>"%{request_time}"} 
percentiles => [25, 75] 
add tag =>"percentile" 


ruby { 


code => "l=event.get (' [rt] [p75]')-event.get (' [rt] [p25] ') ;event.set (' [rt] [low]', event.get (' [rt] [p25]')-1) ;event.set (' [rt] [high] ',event.get (' [rt] [p75] ')+1)" 


} 
} 


output { 


if "percentile" in [tags] and ([rt][last] > [rt][high] or [rt][last] < [rt][low]) { 
exec { 
command => "echo \"Anomaly: %{ [rt] [last] }\"" 
} 


O= 有 关 box and shisker plot 内 容 和 重要 性 ， 参 见 《 数 据 之 魅 》 一 书 。 


2.3.8 


logstash-filter-mutate 插 件 是 Logstash 另 一 个 重要 插件 ， 它 提供 了 丰富 的 基础 类 型 数据 处 理 能 力 ， 包 括 类 型 转换 、 字 符 串 处 理 和 字段 处 理 等 。 


mutate 数 据 修改 


1. 类 型 转换 


类 型 转换 是 logstash-filter-mutate 插 件 最 初 诞生 时 的 唯一 功能 ， 其 应 用 场景 在 之 前 的 2.3.5 节 “JSON 编 解码 ”中 已 经 提 到 。 


可 以 设置 的 转换 类 型 包括 : “integer”、 “float” 和 “string”。 示 例如 下 : 


filter { 


mutate { 
Convert => ["request time", "float"] 
} 


Oza mnutate 除 了 转换 简单 的 字符 值 ， 还 支持 对 数组 类 型 的 字段 进行 转换 ， 即 将 [ “1”， 2” RR, 2o AR RAR AA RA HH PARA 


logstash-filter-ruby 持 件 完 成 。 


2. 字 符 串 处 理 


有 如 下 字符 串 处 理 的 插件 : 


.gub: 仅 对 字符 囊 类 型 字段 有 效 。 


有 这 方面 需求 的 可 以 采用 稍 后 讲述 的 


gsub => ["urlparams", "{\\2#]", " "J 


+ split: 分 割 字符 串 。 


filter { 


mutate { 
split => ["message", "|"] 
} 


随意 输入 一 串 以 


分 割 的 字符 ， 比 如 “123|321|adfd|dfjld*=123” ， 可 以 看 到 如 下 输出 : 


{ 


"message" => [ 


[0] "123", 
[1] "321", 
[2] "adfa", 
[3] "dfjldx=123" 


"@version" =>"1", 
"@timestamp" =>"2014-08-20T15:58:23.1202", 
"host" =>"raochenlindeMacBook-Air.local" 


} 


' join: 仅 对 数组 类 型 字段 有 效 。 


我 们 在 之 前 已 经 用 split 割 切 的 基础 上 再 join 回去 。 配 置 改 成 : 


filter { 


mutate { 

split => ["message", "|"] 
} 
mutate { 

join => ["message", ","] 


} 


filter 区 段 之 内 ， 是 顺序 执行 的 。 所 以 我 们 最 后 看 到 的 输出 结果 是 : 


{ 


"message" =>"123, 321, adfd, dfj1d*=123", 


"@version" 
"@timestamp 


>"2014-08-20T16: 01 233.9722", 


"host" =>"raochenlindeMacBook-Air.local" 


} 


-merge: 合并 两 个 数组 或 者 哈 希 字段 。 依 然 在 之 前 split 的 基础 上 继续 : 


filter { 


mutate { 
split => ["message", "|"] 
} 
mutate { 
merge => ["message", "message"] 


} 


我 们 会 看 到 输出 : 


{ 

"message" => [ 
[0] "123", 
[1] "321", 

[2] "adia", 

[3] "dfjld*=123", 

[4] "123", 

[5] "321"; 

[6] "adfa", 

[7] "dfjld*=123" 

l]; 

"@version" =>"1", 

"@timestamp" =>"2014-08-20T16:05:53.7112", 

"host" =>"raochenlindeMacBook-Air.local" 

} 


如 果 src 字 段 是 字符 串 ， 会 自动 先 转换 成 一 个 单元 素 的 数组 再 合并 。 把 上 一 示例 中 的 来 源 字段 改 成 “host”: 


filter { 
mutate { 
split => ["message", "|"] 


mutate { 
merge => ["message", "host"] 


"message" => [ 
[0] "123", 
[1] "321", 
[2] "adfd", 
[3] "dfjld*=123", 
[4] "raochenlindeMacBook-Air.local" 


"@version" =>"1", 
"@timestamp" =>"2014-08-20T16:07:53.5332", 
"host" => [ 

[0] "raochenlindeMacBook-Air.local" 

] 


看 ， 目 的 字段 “message” 确 实 多 了 一 个 元 素 ， 但 是 来 源 字段 “host” 本 身 也 由 字符 串 类 型 变 成 数组 类 型 了 ! 


同样 ， 如 果 目 的 字段 不 是 数组 ， 也 会 被 强制 转换 。 即 使 来 源 字 段 并 不 存在 : 


filter { 
mutate { 
merge => ["message", "not_exist_field"] 


} 


公 恋 成 
结果 会 变 成 : 


{ 
"message" => [ 
[0] "123|321|adfd|dfj1ld*=123" 

|, 
"@version" =>"1", 
"@timestamp" =>"2014-08-20T15:58:23.1202", 
"host" =>"raochenlindeMacBook-Air. local" 
} 


‘strip: 去 除 字段 内 容 前 后 的 空格 。 可 以 接受 数组 参数 : 


filter { 
mutate { 
strip => ["syslog_message", "syslog_datetime"] 
} 


“ lowercase: 将 字段 内 容 全 部 转换 成 小 写字 母 。 同 样 可 以 接受 数组 。 在 ELK stack 场 景 中 ， 将 内 容 转换 成 小 写 会 是 一 个 比较 常见 的 需求 。 因 为 Elasticsearch 默 认 是 统一 按照 小 写字 母 来 搜索 的 。 为 了 确保 检 
索 准 确 率 ， 在 不 影响 使 用 的 情况 下 ， 建 议 对 常用 检索 字段 启用 lowercase 配 置 。 


uppercase: 将 字段 内 容 全 部 转换 成 大 写字 母 。 同 样 可 以 接受 数组 。 
3 字段 处 理 
字段 处 理 的 插件 有 : 


‘rename: 重 命名 某 个 字段 ， 如 果 目 的 字段 已 经 存在 ， 会 被 覆盖 掉 ， 如 下 所 示 : 


filter { 
mutate { 
rename => ["syslog_host", "host"] 
} 


update: 更 新 某 个 字段 的 内 容 。 如 果 字 段 不 存在 ， 不 会 新 建 。 


‘replace: 作用 和 update 类 似 ， 但 是 当 字段 不 存在 的 时 候 ， 它 会 起 到 add_field 参 数 一 样 的 效果 ， 自 动 添加 新 的 字段 。 


4 执行 次 序 


需要 注意 的 是 ，filter/mutate 内 部 是 有 执行 次 序 的 。 其 次 序 如 下 : 


rename (event) if @rename 
update (event) if @update 
replace (event) if @replace 
convert (event) if @convert 
gsub(event) if @gsub 
uppercase (event) if @uppercase 
lowercase (event) if @lowercase 
strip(event) if @strip 

remove (event) if @remove 
split (event) if @split 

join (event) if @join 

merge (event) if @merge 
filter_matched (event) 


而 filter_matched 这 个 filters/base.rb 里 继承 的 方法 也 是 有 次 序 的 : 


@add field.each do |field, value| 
end ` 

@remove field.each do |field| 
end is 

@add_tag.each do |tag| 

end 

@remove_tag.each do |tag| 

end 


2.3.9 ”随心 所 欲 的 Ruby 处 理 


如 果 你 稍微 懂 那 么 一 点 点 Ruby 语 法 的 话 ，logstash-filter-ruby 揪 件 将 会 是 一 个 非常 有 用 的 工具 。 比 如 你 需要 稍微 修改 一 下 LogStash: : Event 对 象 ， 但 是 又 不 打算 为 此 写 一 个 完整 的 插件 ， 用 
logstash-fitter-ruby 插 件 绝对 感觉 良好 。 


配置 示例 如 下 : 


init =>"@kname = ['client','servername','url', 'status','time','size', 'upstream', 
‘upstreamstatus', 'upstreamtime', 'referer','xff', 'useragent']" 

code => " 
ew_event = LogStash: :Event.new (Hash[@kname. zip (event.get ('message') .split('|'))]) 
new_event «remove ('@timestamp') 

event .append (new_event)" 


} 


官网 示例 是 一 个 比较 有 趣 但 是 没 哈 大 用 的 做 法 一 一 随机 取消 90% 的 事件 。 


所 以 上 面 我 们 给 出 了 一 个 有 用 而 且 强 大 的 实例 。 


通常 我 们 都 是 用 logstash-filter-grok 插 件 来 捕获 字段 的 ， 但 是 正则 耗费 大 量 的 CPU 资 源 ， 很 容易 成 为 Logstash 进 程 的 瓶颈 。 


而 实际 上 ， 很 多 流 经 Logstash 的 数据 都 是 有 自己 预定 义 的 特殊 分 隔 符 的 ， 我 们 可 以 很 简单 的 直接 切割 成 多 个 字段 。 


oo 从 Logstash2.3 开 始 ，LogStash: : event.append 不 再 直接 接受 Hash 对 象 ， 而 必须 是 LogStash: : Event 对 象 。 所 以 示例 变 成 要 先 初始 化 一 个 新 的 event， 再 把 无 用 的 Qtimestamp 移 除 ， 再 append 进 
去 。 否 则 会 把 @timestamp 变 成 有 两 个 时 间 的 数组 了 ! 


从 Logstash 5.0 开 始 ，LogStash: : Event 改 为 Java 实 现 ， 直 接 使 用 event[ “parent” ][“child”] 形 式 获取 的 ， 不 是 原 事件 的 引用 而 是 复制 品 ， 需要 改 用 event.get ( ‘ [parent] [child]? ) 和 event.set ( ‘ [parent] 
[child] , ‘value’ ) 的 方法 。 


logstash-fiter-mutate 插 件 里 的 “split” 选 项 只 能 切 成 数组 ， 后 续 很 不 方便 使 用 和 识别 。 而 在 logstash-fitter-ruby 里 ， 我 们 可 以 通过 “init” 参 数 预定 义 好 由 每 个 新 字段 的 名 字 组 成 的 数组 ， 然 后 
在 “code” 参 数 指定 的 Ruby 语 句 里 通过 两 个 数组 的 zip 操 作 生成 一 个 哈 希 并 添加 进 数 组 里 。 短 短 一 行 Ruby 代 码 ， 可 以 减少 50% 以 上 的 CPU 使 用 率 。 


logstash-filter-ruby 揪 件 用 途 远 不 止 这 一 点 ， 下 一 节 你 还 会 继续 见 到 它 的 身影 。 


更 多 实例 如 下 : 


filter{ 
date { 
match => ["datetime" , "UNIX"] 
} 
ruby { 
code =>"event.cancel if 5 * 24 * 3600 < (event.get( '@timestamp')-::Time.now) .abs" 


} 


在 实际 运用 中 ， 我 们 几乎 肯定 会 碰 到 出 乎 意料 的 输入 数据 。 这 都 有 可 能 导致 Elasticsearch 集 群 出 现 问题 。 


当 数 据 格 式 发 生变 化 ， 比 如 UNIX 时 间 格 式 变 成 UNIX_MS 时 间 格式 ， 会 导致 Logstash 疯 狂 创建 新 索引 ， 集 群 崩 演 。 


或 者 误 输入 过 老 的 数据 时 ， 因 为 一 般 我 们 会 close 几 天 之 前 的 索引 以 节省 内 存 ， 必 要 时 再 打开 。 而 直接 尝试 把 数据 写 入 被 关闭 的 索引 会 导致 内 存 问 题 。 


这 时 候 我 们 就 需要 提前 校 验 数据 的 合法 性 。 上 面 配置 ， 就 是 用 于 过 滤 掉 时 间 范 围 与 当前 时 间 差 距 太 大 的 非法 数据 的 。 


2.3.10 split 拆 分 事件 


上 一 章 我 们 通过 multiline 揪 件 将 多 行 数据 合并 进 一 个 事件 里 ， 那 么 反 过 来 ， 也 可 以 把 一 行 数据 ， 拆 分 成 多 个 事件 。 这 就 是 split 插 件 。 


配置 示例 如 下 : 


filter { 
split { 
field =>"message" 
terminator =>"#" 


这 个 测试 中 ， 我 们 在 intputs/stdin 的 终端 中 输入 一 行 数据 : “test1#test2”， 结 果 看 到 输出 两 个 事件 : 


{ 

"@version": "1", 

"@timestamp": "2014-11-18T08:11:33.0002", 
"host": "web121.mweibo.tc.sinanode.com", 
"message": "test1" 


"@timestamp": "2014-11-18T08:11:33.0002", 
"host": "web121.mweibo.tc.sinanode.com", 
"message": "test2" 

} 


Orr split 播 件 中 使 用 的 是 yield 功 能 ， 其 结果 是 split 出 来 的 新 事件 ， 会 直接 结束 其 在 filter 阶 段 的 历程 ， 也 就 是 说 写 在 split 后 面 的 其 他 filter 插 件 都 不 起 作用 ， 进 入 到 output 阶 段 。 所 以 ， 一 定 要 保证 
split 配 置 写 在 全 部 filter 配 置 的 最 后 。 


使 用 了 类 似 功能 的 还 有 clone 桂 件 。 从 logstash-1.5.0betal 版 本 以 后 修复 该 问题 。 


2.3.11 ”交叉 日 志 合 


Splunk 有 一 项 非常 有 用 的 功能 ， 叫 做 transaction。 可 以 在 错乱 的 多 行 日 志 中 ， 根 据 connected 字 段 、maxspan 窗 口 、startswith/endwith 标 签 等 信息 计算 出 事件 的 duration 和 count 结 果 。 其 文档 


W: http://docs.splunk.com/Documentation/Splunk/latest/SearchReference/Transaction 


ELK 中 ， 承 载 计 算 功 能 的 Elasticsearch 并 不 支持 这 种 跨行 计算 ， 所 以 ， 变 通 的 处 理 方 式 是 : 在 Logstash 中 ， 提 前 做 好 事件 的 归并 ， 直 接 计算 出 来 transaction 的 duration 数 据 。 


比如 一 个 transaction task_id startswith=START endwith=END 的 查询 ， 可 以 在 Logstash 中 这 样 计算 : 


filter { 

grok { 
match => ["message", "%{TIMESTAMP 1S08601} START id: (?<task_id>.*)"] 
add tag => [ "taskStarted" ] 

} 

grok { 
match => ["message", "%{TIMESTAMP_ISO8601} END id: (?<task_id>.*)"] 
add tag => [ "taskTerminated"] 

} 

elapsed { 


start_tag =>"taskStarted" 
end_tag =>"taskTerminated" 
unique_id field =>"task_id" 


如 果 你 的 需求 是 合并 多 行 日 志 ， 不 单 是 计算 时 差 。 则 可 以 使 用 另 一 个 第 三 方 插件 : logstash-filter-aggregate。 配 置 示例 如 下 : 


filter { 
grok { 
match => [ "message", "%{LOGLEVEL:loglevel} - %{NOTSPACE:taskid} - %{NOTSPACE:logger} - %{WORD:label}( - %{INT:duration:int})?" ] 
} 
if [logger] == "TASK_START" { 
aggregate { 


task_id => "%{taskid}" 
code => "map['sql_duration'] = 0" 
map_action => "create" 


} 


} 
if [logger] = "SQL" { 
aggregate { 
task id => "%{taskid}" 
code => "map['sql duration'] += event.get ('duration')" 
map_action => "update" 
} 


} 
if [logger] == "TASK END" { 
aggregate { = 

task id => "%{taskid}" 
code => "event.set(' sql_duration', map['sql_duration'])" 
map_action => "update" 
end_of_task => true 
timeout => 120 


该 配置 可 以 将 如 下 这 几 行 交叉 打印 的 日 志 : 


INFO - 12345 - TASK START - start 
INFO - 12345 - SQL - sqlQueryl - 12 
INFO - 12345 - SQL - sqlQuery2 34 
INFO - 12345 - TASK END - end 


以 一 个 统一 的 task_id， 以 及 超时 时 间 、 结 束 标识 等 条 件 ， 最 终 合 并 成 为 如 下 事件 : 


"message" => "INFO - 12345 - TASK END - end", 
"sql duration" => 46 


24 输出 插件 


2.4.1 输出 到 Elasticsearch 


Logstash 早 期 有 三 个 不 同 的 Elasticsearch 揪 件 。 到 1.4.0 版 本 的 时 候 ， 开 发 者 彻底 重 写 了 Logstash: : Outputs: : Elasticsearch 插 件 。 从 此 ， 我 们 只 需要 用 这 一 个 插件 ， 就 能 任意 切换 使 
Elasticsearch 集 群 支持 的 各 种 不 同 协议 了 。 


1. 配 置 示例 


output { 
elasticsearch { 

hosts => ["192.168.0.2:9200"] 
index => "logstash-%{type}-%{+YYYY.MM.dd}" 
document_type => "%{type}" 
flush_size => 20000 
idle flush_time => 10 
sniffing => true 
template_overwrite => true 


2. 解 释 


: 批量 发 送 ”在 过 去 的 版 本 中 ， 主 要 由 本 插件 的 “fush_size” 和 “idqle_flush_time” 两 个 参数 共同 控制 LogR8tash 向 Elasticseatch 发 送 批量 数据 的 行为 。 以 上 面 示例 来 说 : Logstash 会 努力 攒 到 20000 条 数据 一 次 
性 发 送出 去 ,但 是 如 果 10 秒 钟 内 也 没 攒 够 20000 条 ，Logstash 还 是 会 以 当前 攒 到 的 数据 量 发 一 次 。 


-< 默认 情况 下 ， “flush_size” 是 500 条 ， “idle_flush_time” 是 1 秒 。 这 也 是 很 多 人 改 大 了 “flush_size” 也 没 能 提高 写 入 ES 性 能 的 原因 一 一 Logstash 还 是 1 秒 钟 发 送 一 次 。 
- 从 5.0 开 始 ， 这 个 行为 有 了 另 一 个 前 提 : “flush_size” 的 大 小 不 能 超过 Logstash 运 行 时 的 命令 行 参数 设置 的 “batch_size”， 否 则 将 以 “batch_size” 为 批量 发 送 的 大 小 。 


:索引 名 写 入 的 Elasticseatch 索 引 的 名 称 ， 这 里 可 以 使 用 变量 。 为 了 更 贴 合 日 志 场景 ，Logstash 提 供 了 %{+YYYY.MM.dd} 这 种 写法 。 在 语法 解析 的 时 候 ， 看 到 以 + 号 开头 的 ， 就 会 自动 认为 后 面 是 时 间 格 
式 ， 尝 试用 时 间 格 式 来 解析 后 续 字 符 串 。 所 以 ， 之 前 处 理 过 程 中 不 要 给 自 定 义 字 段 取 个 加 号 开头 的 名 字 ……: 


此外， 注意 索引 名 中 不 能 有 大 写字 母 ， 否 则 Elasticsearch 在 日 志 中 会 报 InvalidIndex-NameException， 但 是 Logstash 不 会 报错 ， 这 个 错误 比较 隐 降 ， 也 容易 掉 进 这 个 坑 中 。 

: 轮 询 ”gstash 1.4.2 在 transport 和 HTTP 协 议 的 情况 下 是 固定 连接 指定 host 发 送 数据 。 从 1.5.0 开 始 ，host 可 以 设置 数组 ， 它 会 从 节点 列表 中 选取 不 同 的 节点 发 送 数据 ， 达 到 Round-Robin 负 载 均衡 的 效果 。 
3. 不 同 版 本 的 协议 沿革 

1.4.0 版 本 之 前 ， 有 logstash-output-elasticsearch、logstash-output-elasticsearch_http、logstash-output-elasticsearch_river 三 个 插件 。 


1.4.0 到 2.0 版 本 之 间 ， 配 合 Elasticsearch 废 弃 river 方 法 ， 只 剩 下 logstash-output-elasticsearch 一 个 插件 ， 同 时 实现 了 node、transport、http 三 种 协议 。 


2.0 版 本 开始 ， 为 了 兼容 性 和 调试 方便 ，logstash-output-elasticsearch 改 为 只 支持 HTTP 协 议 。 想 继续 使 用 node 或 者 transport 协 议 的 用 户 ， 需 要 单独 安装 logstash-output-elasticsearch_java 插 件 。 


一 个 小 集群 里 ， 继 续 使 用 logstash-output-elasticsearch_java 的 node 协 议 是 最 方便 了 。 


Logstash 以 Elasticsearch 的 client 节 点 身份 〈 即 不 存 数据 不 参加 选举 ) 运行 。 如 果 你 运行 下 面 这 行 命令 ， 你 就 可 以 看 到 自己 的 Logstash 进 程 名 ， 对 应 的 node.role 值 是 c: 


# curl 127.0.0.1:9200/_cat/nodes?v 


host ip heap.percent ram.percent load node.role master name 
local 192.168.0.102 7 c = logstash-local-1036-2012 
local 192.168.0.2 y d = Sunstreak 


Logstash 1.5 以 后 ， 也 不 再 分 发 一 个 内 嵌 的 Elasticsearch 服 务 器 。 如 果 你 想 变 更 node 协 议 下 的 这 些 配 置 ， 在 $PWDyVelasticsearch.yml 文 件 里 写 自 定 义 配置 即 可 ，Logstash 会 尝试 自动 加 载 这 个 文件 。 


对 于 拥有 很 多 索引 的 大 集群 ， 你 可 以 用 transport 协 议 。Logstash 进 程 会 转发 所 有 数据 到 你 指定 的 某 台 主机 上 。 这 种 协议 跟 上 面 的 node 协 议 是 不 同 的 。node 协 议 下 的 进程 是 可 以 接收 到 整个 
Elasticsearch 集 群 状 态 信息 的 ， 当 进程 收 到 一 个 事件 时 ， 它 就 知道 这 个 事件 应 该 存在 集群 内 哪个 机 器 的 分 片 里 ， 所 以 它 就 会 直接 连接 该 机 器 发 送 这 条 数据 。 而 transport 协 议 下 的 进程 不 会 保存 这 个 信息 ， 在 
集群 状态 更 新 (节点 变化 ， 索 引 变 化 都 会 发 送 全 量 更 新 ) 时 ， 就 不 会 对 所 有 的 Logstash 进 程 也 发 送 这 种 信息 。 更 多 Elasticsearch 集 群 状态 的 细节 ， 参 阅 http://www.elasticsearch.org/guide。 


如 果 你 已 经 有 现成 的 Elasticsearch 集 群 ， 但 是 版 本 跟 Logstash 自 带 的 又 不 太一 样 ， 建 议 你 使 用 http 协 议 。Logstash 会 使 用 POST 方式 发 送 数据 。 


4 数据 重复 问题 


经 常 有 读者 问 ， 为 什么 Logstash 在 有 多 个 conf 文 件 的 情况 下 ， 进 入 ES (Elasticsecrrch) 的 数据 会 重复 ， 几 个 conf 数 据 就 会 重复 几 次 。 其 实 问题 原因 在 之 前 章节 提 到 过 ，output 段 顺序 执行 ， 没 有 对 日 
志 type 进 行 判断 的 各 插件 配置 都 会 全 部 执行 一 次 。 在 output 段 对 type 进 行 判断 的 语法 如 下 所 示 : 


output { 
if [type] == "nginxaccess" { 
elasticsearch { } 


} 


5. 模 板 


Elasticsearch 支 持 给 索引 预定 义 设置 和 mapping (前 提 是 你 用 的 Elasticsearch 版 本 支持 这 个 AP1， 不 过 估计 应 该 都 支持 ) 。Logstash 自 带 有 一 个 优化 好 的 模板 ， 内 容 如 下 : 


"template" : "logstash-*", 
"version" : 50001, 
"settings" : { 
"index.refresh_interval" : "5s" 
] 
"mappings" : { 
"default " : { 
= n ali" : {"enabled" : true, "norms" : false}, 
"dynamic_templates" : [ { 
"message field" : { 
"path match" : "message", 
"match mapping type" "string", 
"mapping" : { 
"type" : "text", 
"norms" : false 
} 
} 
tr { 
"string fields" : { 
"match" : "*", 
"match_mapping type" : "string", 


if 


"type" : "text", "norms" : false, 
"fields" : { 

"keyword" : { "type": "keyword" } 
i 


} 
t l 


"properties" 
"@timestam { "type": "date", "include in all": false }, 
"@version": { "type": "keyword", "include_in all": false }, 
"geoip" : 
"dynamic": true, 
"properties" : { 
"ip": { "type": "ip" }, 
"location" : { "type" : "geo_point" }, 
"latitude" : { "type" : "half float" }, 
"longitude" : { "type" : "half float" } 
} 
} 
} 
} 
i $ 
这 其 中 的 关键 设置 包括 : 


“ template for index-pattern: 只 有 匹配 logstash-# 的 索引 才 会 应 用 这 个 模板 。 有 时 候 我 们 会 变更 Logstash 的 默认 索引 名 称 ， 记 住 你 也 得 通过 PUT 方法 上 传 可 以 匹配 你 自 定 义 索引 名 的 模板 。 当 然 ， 我 更 建议 的 
做 法 是 ， 把 你 自 定 义 的 名 字 放 在 “logstash-” 后 面 ， 变 成 index=> “logstash-custom-%{+yyyy.MM.dd}” 这 样 。 


+ refresh_interval for indexing: Elasticsearch 是 一 个 近 实 时 搜索 引擎 。 它 实际 上 是 每 1 秒 钟 刷 新 一 次 数据 。 对 于 日 志 分 析 应 用 ， 我 们 用 不 着 这 么 实时 ， 所 以 Logstash 自 带 的 模板 修改 成 了 5 秒 钟 。 你 还 可 以 根据 
需要 继续 放大 这 个 刷新 间隔 以 提高 数据 写 入 性 能 。 


+ multi-field with keyword: Elasticsearch 会 自动 使 用 自己 的 默认 分 词 器 (空格 、 点 、 斜 线 等 分 割 ) 来 分 析 字 段 。 分 词 器 对 于 搜索 和 评分 是 非常 重要 的 ,但 是 大 大 降低 了 索引 写 入 和 聚合 请 求 的 性 能 。 所 以 
Logstash 模 板 定义 了 一 种 叫 “ 多 字段 ” (multi-field) 类 型 的 字段 。 这 种 类 型 会 自动 添加 一 个 以 “.keyword” 结 尾 的 字段 ， 并 给 这 个 字段 设置 为 不 启用 分 词 器 。 简 单 说 ， 你 想 获 取 URL 字 段 的 聚合 结果 的 时 候 ， 
不 要 直接 用 ud， 而 是 用 utl.keyword 作 为 字段 名 。 当 你 还 对 分 词 字段 发 起 聚合 和 排序 请 求 的 时 候 ， 直 接 提 示 无 法 构建 fielddata 了 ! 


在 Logstash 5.0 中 ， 同 时 还 保留 携带 了 针对 Elasticsearch 2.x 的 template 文 件 ， 在 那里 ， 通 过 旧版 本 的 mapping 配 置 ， 达 到 和 新 版 本 相同 的 行为 效果 : 对 应 统计 字段 明确 设 
置 “index”: “not analyzed”，“doc values”: true， 以 及 对 分 词 字段 加 上 对 fielddata 的 {“format”: “disabled” }, 


“ half_float: Elasticsearch 5.0 新 引入 了 half_float 类 型 。 比 标准 的 float 类 型 占用 更 少 的 资源 ， 提 供 更 好 的 性 能 。 在 明确 自己 数值 范围 较 小 的 时 候 可 用 。 刚 巧 ， 经 纬度 就 是 一 个 数值 范围 很 小 的 数据 。 
- geo_point: Blasticsearch 支 持 geo_point 类 型 ，geo distance 聚 合 等 等 。 比 如 说 ， 你 可 以 请 求 菜 个 geo_point 点 方 贺 10 千 米内 数据 点 的 总 效 。 在 Kibana 的 dlemap 类 型 面板 里 ， 就 会 用 到 这 个 类 型 的 数据 。 
6. 其 他 模板 配置 建议 
“ order: 如 果 你 有 自己 单独 定制 template 的 想法 ， 很 好 。 这 时 候 有 几 种 选择 : 
.在 logstash-output-elasticsearch 配 置 中 开启 manage_template=>false 选 项 ， 然 后 一 切 自己 动手 ; 
.在 logstash-output-elasticsearch 配 置 中 开启 template=>“/path/to/your/tmpljson” 选 项 ， 让 logstash 来 发 送 你 自己 写 的 template 文 件 ; 
. 避免 变更 Logstash 里 的 配置 ， 而 是 另外 发 送 一 个 template， 利 用 Elasticsearch 的 templates order 功 能 。 


+ 这 个 order 功 能 ， 就 是 Elasticsearch 在 创建 一 个 索引 的 时 候 ， 如 果 发 现 这 个 索引 同时 匹配 上 了 多 个 template， 那 么 就 会 先 应 用 order 数 值 小 的 template 设 置 ， 然 后 再 应 用 一 遍 order 数 值 高 的 作为 履 盖 ， 最 终 达 
到 一 个 merge 的 效果 。 比 如 ， 对 上 面 这 个 模板 已 经 很 满意 ， 只 想 修改 一 下 refresh_interval， 那 么 只 需要 新 写 一 个 : 


{ 


"order" : 1, 

"template" : "logstash-*", 
"settings" : { 
"index.refresh_interval" : "20s" 


} 
} 


- 然后 运行 curl-XPUT http://localhost: 9200/_template/template_newid-d “@/path/to/your/tmpl.json” 即 可 。Logstash 默 认 的 模板 ，ordet 是 0 ，id 是 logstash， 通 过 logstash-output-elasticsearch 的 配置 选项 
template_name 修 改 。 你 的 新 模板 就 不 要 跟 这 个 名 字 冲 突 了 。 


+ _fields_name: 日 志 场景 最 重要 的 瓶颈 首先 在 于 入 库 速 度 。 所 以 Logstash 默 认 模 板 中 ， 通 过 对 一 些 字段 的 “norms”: falsefo “include_in_all” : false 设 定 来 减少 计算 量 ， 提 高 入 库 速 度 。 其 实 还 有 一 个 内 
置 的 字段 ， 在 条 件 许可 的 情况 下 ， 是 可 以 关闭 的 ， 就 是 _fields_name。 


“ 这 个 字段 和 _] 有 些 类 似 ，_all 里 面 记录 的 是 所 有 字段 的 值 ， 而 _fields_name 里 记录 的 是 所 有 字段 的 名 字 。 这 个 作用 是 可 以 大 大 加 速 诸如 exists、missing 类 查询 的 速度 。 但 是 会 导致 30% 左 右 的 写 入 速度 损 
耗 。 在 日 志 场 景 中 ， 也 是 可 以 关闭 的 ， 代 码 如 下 : 


"all" : {"enabled" : true, "norms" : false}, “fields name” : { “enabled” : false },-- 
24.2 发 送 email 
配置 示例 如 下 : 
output { 
email { 

port => EE 
address => "smtp.126.com" 
username => "test@126.com" 
password => mx 
authentication => "plain" 
use_tls => true 
from => "test@126.com" 
subject => "Warning: %{title}" 
to => "test@qq. com" 
via => "smtp" 
body => "3{message}" 


logstash-output-email 插 件 支持 SMTP 协 议和 sendmail 两 种 方式 ， 通 过 via 参 数 设 置 。SMTP 方 式 有 较 多 的 options 参 数 可 配置 。sendmail 只 能 利用 本 机 上 的 sendmail 服 务 来 完成 。 文 档 上 描述 了 Mail 


库 支 持 的 sendmail 配 置 参 数 ， 但 实际 代码 中 没有 相关 处 理 ， 不 要 被 迷惑 了 。 


24.3 ”调用 系统 命令 执行 


logstash-output-exec 插 件 的 运用 也 非常 简单 ， 如 下 所 示 ， 将 Logstash 切 割 成 的 内 容 作 为 参数 传递 给 命令 。 这 样 ， 在 每 个 事件 到 达 该 插件 的 时 候 ， 都 会 触发 这 个 命令 的 执行 。 


output { 
exec { 
command =>"sendsms.pl \"%{message}\" -t %{user}" 
} 
} 


需要 注意 的 是 。 这 种 方式 是 每 次 都 重新 开始 执行 一 次 命令 并 退出 。 本 身 是 比较 慢 速 的 处 理 方式 (程序 加 载 ， 网 络 建 联 等 都 有 一 定 的 时 间 消 耗 ) 。 最 好 只 用 于 少量 的 信息 处 理 场景 ， 比 如 不 适用 nagios 的 
其 他 报警 方式 。 示 例 就 是 通过 短信 发 送 消息 。 


24.4 保存 成 文件 


通过 日 志 收 集 系 统 将 分 散在 数 百 台 服务 器 上 的 数据 集中 存储 在 某 中 心服 务 器 上 ， 这 是 运 维 最 原始 的 需求 。 早 年 的 scribed， 甚 至 直接 就 把 输出 的 语法 命名 为 <store>。Logstash 当 然 也 能 做 到 这 点 。 


和 LogStash: : Inputs: : File 不 同 ，LogStash: : Outputs: : File 里 可 以 使 用 sprintf format 格 式 来 自动 定义 输出 到 带 日 期 命名 的 路 径 。 


配置 示例 如 下 : 


output { 
file { 
path =>"/path/to/%{+yyyy}/%{+mm}/%{+dd}/%{+HH}/%{host}.log.gz" 
message format =>"%{message}" 
gzip => true 


使 用 output/file 插 件 首先 需要 注意 的 就 是 message _format 参 数 。 插 件 默认 是 输出 整个 event 的 JSON 形 式 数据 的 。 这 可 能 跟 大 多 数 情 况 下 使 用 者 的 期 望 不 符 。 大 家 可 能 只 是 希望 按照 日 志 的 原始 格式 保 
存 就 好 了 。 所 以 需要 定义 为 %{message}， 当 然 ， 前 提 是 在 之 前 的 filter 揪 件 中 ， 你 没有 使 用 remove field 或 者 update 等 参数 删除 或 修改 %{message} 字 有 段 的 内 容 。 


一 个 非常 有 用 的 参数 是 gzip。gzip 格 式 是 一 个 非常 奇特 而 友好 的 格式 。 其 格式 包括 有 : 
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“ 可 选 的 扩展 头 ， 如 原文 件 名 。 


+ 文件 体 ， 包 括 DEFLATE 压 缩 的 数据 。 


“ 8 字 节 的 尾 注 ， 包 括 CRC-32 校 验 和 以 及 未 压缩 的 原始 数据 长 度 。 


这 样 gzip 就 可 以 一 段 一 段 的 识别 出 来 数据 一 一 反 过 来 说 ， 也 就 是 可 以 一 段 一 段 压缩 了 ， 添 加 在 后 面 ! 


这 对 于 我 们 流 式 添加 数据 简直 太 棒 了 ! 


Q= 你 或 许 见 过 网 络 流传 的 parallel 命 令 行 工 具 并 发 处 理 数 据 的 神奇 文档 ， 但 在 自己 用 的 时 候 总 见 不 到 效果 。 实 际 上 就 是 因为 : 文档 中 处 理 的 gzip 文 件 ， 可 以 分 开 处 理 然后 再 合并 的 ， 而 你 的 用 法 
却 不 一 定 可 以 。 


这 里 需要 注意 两 点 : 


1) 按照 Logstash 标 准 ， 其 实 应 该 可 以 把 数据 格式 的 定义 改 在 coded 插 件 中 完成 ， 但 是 logstash-output-file 插 件 内 部 实现 中 跳 过 了 @codec.decode 这 步 ， 所 以 codec 设 置 无 法 生效 ! 


2) 按照 Logstash 标 准 ， 配 置 参数 的 值 可 以 使 用 event sprintf 格 式 。 但 是 logstash-output-file 插 件 对 event.sprintf (@path) 的 结果 ， 还 附加 了 一 步 inside file root? BAG (个 人 猜测 是 为 了 防止 越权 
到 其 他 路 径 ) ， 这 个 file_root 是 通过 直接 对 path 参 数 分 割 /符号 得 到 的 。 如 果 在 sprintf 格 式 中 带 有 /符号 ， 那 么 被 切 分 后 的 结果 就 无 法 正确 解析 了 。 所 以 ， 如 下 所 示 配 置 ， 虽 然 看 起 来 是 正确 的 ， 实 际 效果 却 
不 对 ， 正 确 写法 应 该 是 本 节 之 前 的 配置 示例 那样 。 


output { 
file { 
path => "/path/to/%{+yyyy/MM/dd}/% {host} .log.gz" 
codec => line { 
format => "%{message}" 
} 
i 


2.4.5 ”报警 发 送 到 Nagios 


Logstash 中 有 两 个 output 插 件 是 与 Nagios 有 关 的 。logstash-output-nagios 插 件 发 送 数 据 给 本 机 的 nagios.cmd 管 道 命令 文件 ，logstash-output-nagios_nsca 插 件 则 是 调用 send_nsca 命 令 以 NSCA 
协议 格式 把 数据 发 送 给 Nagios 服 务 器 〈 远 端 或 者 本 地 皆 可 ) 。 


1.nagios.cmd 


nagios.cmd 是 Nagios 服 务 器 的 核心 组 件 。Nagios 事 件 处 理 和 内 外 交互 都 是 通过 这 个 管道 文件 来 完成 的 。 


使 用 CMD 方 式 ， 需 要 自己 保证 发 送 的 Logstash 事 件 符合 Nagios 事 件 的 格式 。 即 必须 在 filter 阶 段 预 先 准备 好 nagios_host 和 nagios_service 字 段 ; 此 外 ， 如 果 在 filter 阶 段 也 准备 好 nagios_annotation 和 
nagios level 字段， 这 里 也 会 自动 转换 成 nagios 事 件 信息 。 


filter { 
if [message] =~ /err/ { 
mutate { 
add_tag =>"nagios" 


rename => ["host", "nagios host"] 


replace => ["nagios_service", "logstash_check_%{type}"] 
} 
} 
} 
output { 
if "nagios" in [tags] { 
nagios { } 


} 


如 果 不 打算 在 filter 阶 段 提 供 nagios level， 那 么 也 可 以 在 该 插件 中 通过 参数 配置 。 


所 谓 nagios level， 即 我 们 通过 nagiosplugin 检 查 数据 时 的 返回 值 。 其 取 值 范围 和 含义 如 下 : 
0” , 代表 “OK”， 服 务 正常 。 

- “1” , 代表 “WARNNING”， 服 务 警告 ， 一 般 nagios plugin 命 令 中 使 用 -w 参 数 设置 该 阅 值 。 

© “2?” , 代表 “CRITICAL”， 服 务 危 急 ， 一 般 nagios plugin 命 令 中 使 用 -c 参 数 设 置 该 阅 值 。 

“3”， 代表 “UNKNOWN”， 未 知 状态 ， 一 般 会 在 timeout 等 情况 下 出 现 。 


默认 情况 下 ， 该 插件 会 以 “CRITICAL” 等 级 发 送 报警 给 Nagios 服 务 器 。 


nagios.cmd 文 件 的 具体 位 置 ， 可 以 使 用 command file 参 数 设 置 。 默 认 位 置 是 “/var/lib/nagios3/rw/nagios.cmd”。 


关于 和 nagios.cmd 交 互 的 具体 协议 说 明 ， 有 兴趣 的 读者 请 阅读 Using external commands in Nagios 一 文 (http://archive09.linux.com/feature/153285) ， 这 是 《Learning Nagios 3.0》 书 中 内 容 


节选 。 
2.NSCA 


NSCA 是 一 种 标准 的 Nagios 分 布 式 扩展 协议 。 分 布 在 各 机 器 上 的 send_nsca 进 程 主动 将 监控 数据 推送 给 远 端 Nagios 服 务 器 的 NSCA 进 程 。 


当 Logstash 跟 Nagios 服 务 器 没有 在 同一 个 主机 上 运行 的 时 候 ， 就 只 能 通过 NSCA 方 式 来 发 送 报警 了 一 一 当然 也 必须 在 Logstash 服 务 器 上 安装 send_nsca 命 令 。 


Nagios 事 件 所 需要 的 几 个 属性 在 上 一 段 中 已 经 有 过 描述 。 不 过 在 使 用 这 个 插件 的 时 候 ， 不 要 求 提前 准备 好 ， 而 是 可 以 在 该 插件 内 部 定义 参数 : 


output { 
nagios_nsca { 
nagios host =>"%{host}" 
nagios_service “logstash_check_%{type}" 
nagios status =>"2" 
message format =>"%{@timestamp}: %{message}" 
host =>"nagiosserver.domain.com" 


这 里 请 注意 ，host 和 nagios_host 两 个 参数 ， 分 别 是 用 来 设置 Nagios 服 务 器 的 地 址 ， 和 报警 信息 中 有 问题 的 服务 器 地 址 。 


关于 NSCA 原 理 ， 架 构 和 配置 说 明 ， 还 不 了 解 的 读者 请 阅读 官方 网 站 Using NSClient+ +from nagios with NSCA 一 节 (http://nsclient.org/nscp/wiki/doc/usage/nagios/nsca) 。 


3. 其 他 类 似 插件 


除了 Nagios 以 外 ，Logstash 同 样 可 以 发 送信 息 给 其 他 常见 监控 系统 ， 方 式 和 Nagios 大 同 小 异 : 
- logstash-output-ganglia 插 件 通过 UDP 协议 ， 发 送 gmettic 型 数据 给 本 机 / 远 端的 gmond 或 者 gmetad。 


- logstash-output-zabbix 插 件 调用 本 机 的 zabbix_sendet 命 令 发 送 。 


2.4.6 statsd 


statsd 最 早 是 2008 年 Flickr 公 司 用 Perl 写 的 针对 graphite、datadog 等 监控 数据 后 端 存 储 开发 的 前 端 网 络 应 用 ，2011 年 Etsy 公 司 用 Nodejs 重 构 。 用 于 接收 、 写 入 、 读 取 和 聚合 时 间 序 列 数 据 ， 包 括 即 时 
值 和 累积 值 等 。 


graphite 是 用 Python 模仿 RRDtools 写 的 时 间 序列 数据 库 套件 ， 包 括 三 个 部 分 : 


- carbon: 一 个 Twisted 守 护 进 程 ， 监 听 处 理 数 据 。 
- whisper: 存储 时 间 序 列 的 数据 库 。 


"webapp: 一 个 用 Dijango 框 架 实 现 的 网 页 应 用 。 


statsd 项 目 涉及 多 个 模块 同时 部 署 ， 步 骤 比 较 多 ， 这 里 单独 给 读者 介绍 一 下 部 署 方法 。 首 先 通过 如 下 几 步 安装 graphite : 


1) 安装 cairo 和 pycairo 库 : 


# yum -y install cairo pycairo 


2) pip 安 装 : 


# yum install python-devel python-pip 
# pip install django django-tagging carbon whisper graphite-web uwsgi 


3) 配置 Graphite: 


# cd /opt/graphite/webapp/graphite 
# cp local_settings.py.example local_settings.py 
# python manage.py syncdb 


修改 local_settings.py 中 的 DATABASE 为 设置 的 db 信息 。 


4) 启动 cabon: 


cd /opt/graphite/conf/ 

cp carbon.conf.example carbon.conf 

cp storage-schemas.conf.example storage-schemas.conf 
cd /opt/graphite/ 

# ./bin/carbon-cache.py start 


+ 
# 
# 
# 


然后 再 通过 如 下 几 步 安装 statsd : 


1) Graphite 地 址 设置 : 


# cd /opt/ 

# git clone git://github.com/etsy/statsd.git 
# cd /opt/statsd 

# cp exampleConfig.js Config.js 


根据 Graphite 服 务 器 地 址 ， 修 改 Config.js 中 的 配置 如 下 : 


graphitePort: 2003, 

graphiteHost: "10.10.10.124", 

port: 8125, 

backends: [ "./backends/graphite" ] 


2) uwsgifits: 


cd /opt/graphite/webapp/graphite 
cat > wsgi_graphite.xml <<EOF 
<uwsgi> ` 
<socket>0.0.0.0:8630</socket> 
<workers>2</workers> 
<processes>2</processes> 
<listen>100</listen> 
<chdir>/opt/graphite/webapp/graphite</chdir> 
<pythonpath>http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/. .</pythonpath> 
<module>wsgi</module> 
<pidfile>graphite.pid</pidfile> 
<master>true</master> 
<enable-threads>true</enable-threads> 
<logdate>true</logdate> 
<daemonize>/var/log/uwsgi_graphite.log</daemonize> 
</uwsgi> ae 
EOF 
cp /opt/graphite/conf/graphite.wsgi /opt/graphite/webapp/graphite/wsgi.py 


3) Nginx 的 uwsg 酝 置 : 


cat > /usr/local/nginx/conf/conf.d/graphite.conf <<EOF 
server { 
listen 8081; 
server_name graphite; 
access_log /opt/graphite/storage/log/webapp/access.log ; 
error_log /opt/graphite/storage/log/webapp/error.log ; 
location / { 
uwsgi_pass 0.0.0.0:8630; 
include uwsgi_params; 
proxy_connect_timeout 300; 
proxy send timeout 300; 
proxy_read timeout 300; 


EOF 


4) 启动 : 


# uwsgi -x /opt/graphite/webapp/graphite/wsgi_graphite.xml 
# Systemct1 nginx reload 


5) 数据 测试: 


echo "test.logstash.num:100|c" | nc -w 1 -u $IP $port 


如 果 安 装配 置 是 正常 的 ， 在 graphite 的 左 侧 metrics-> stats- >test->logstash->num 的 表 ，statsd 里 面 多 了 numStats 等 数据 。 


配置 示例 如 下 : 


output { 
statsd { 
host =>"statsdserver.domain.com" 
namespace =>"logstash" 
sender =>"%{host}" 
increment => ["httpd.response.%{status}"] 


Graphite 以 树 状 结构 存储 监控 数据 ， 所 以 statsd 也 是 如 此 。 所 以 发 送 给 statsd 的 数据 的 key 也 一 定 得 是 “first.second.tree.four” 这 样 的 形式 。 而 在 logstash-output-statsd 插 件 中 ， 就 会 以 三 个 配置 参 
数 来 拼接 成 这 种 形式 : 


namespace.sender.metric 


其 中 namespace 和 sender 都 是 直接 设置 的 ， 而 metric 又 分 为 好 几 个 不 同 的 参数 可 以 分 别 设置 。statsd 支 持 的 metric 类 型 如 下 : 


+ increment 


示例 语法 : increment=>[“nginx.status.%{status}”]。 该 配置 即 可 在 statsd 中 生成 对 应 的 
nginx.status.200，nginx.status.206，nginx.status.304，nginx.status.404，nginx.status.502，nginx.status.503，nginx.status.504 等 一 系列 监控 项 。 同 时 ， 在 statsd 内 配置 的 一 个 时 间 周 期 内 ， 各 状态 


码 的 次 数 ， 会 自动 累加 到 各 自 监控 项 里 。 


+ decrement 
语法 同 increment。 不 过 是 递减 而 不 是 递增 。 
count 
示例 语法 : count=>{ “nginx.bytes" => “%{bytes}”}。 该 配置 可 以 在 statsd 中 生成 一 个 nginx.pytes 监 控 项 。 而 每 条 Nginx 访 问 记 录 的 响应 字 节 数 ， 累 加 成 带宽 。 
` gauge 


语法 同 count。gauge 和 count (在 rrdtool 中 叫 counter) 两 种 计数 器 的 区 别 从 早年 的 rrdtool 时 代 就 被 反复 强调 ， 即 gauge 直 接 存 储 原始 数值 ， 不 累加 。 


“set 


示例 语法 : set=>{“online”=> “9%{user id}j”}。 是 新 版 statsd 才 支持 的 功能 ， 可 以 用 来 做 去 重 计算 ， 比 如 在 线 人 数 统计 。 
+ timing 


示例 语法 : timing=>[ “nginx.requesttime” => “9%{request time}”]。 该 配置 可 以 在 statsd 中 生成 一 个 nginx.requesttime 监 控 项 ， 记 录 时 间 周 期 内 ，Nginx 访 问 记 录 的 响应 时 间 的 数值 统计 情况 ， 
包括 平均 值 ， 最 大 值 ， 最 小 值 ， 标 准 差 ， 百 分 比值 等 。 


关于 这 些 metric 类 型 的 详细 说 明 ， 请 阅读 statsd 文 档 : https://github.com/etsy/statsd/blob/master/docs/metric_types.md, 


推荐 阅读 
Etsy 发 布 nodejs 版 本 statsd 的 博客 : Measure Anything, Measure Everything (http://codeascraft.etsy.com/2011/02/15/measure-anything-measure-everything/ ) 
Flickr 发 布 statsd 的 博客 : Counting&Timing (http://code.flickr.net/2008/10/27/counting-timing/) 


Librato 有 关 statsd 协 作 的 博客 : Using StatsD with Librato (http://support.metrics.librato.com/knowledgebase/articles/77199-using-statsd-with-librato) 


2.4.7 ”标准 输出 stdout 


和 之 前 logstash-input-stdin 揪 件 一 样 ，logstash-output-stdout 插 件 也 是 最 基础 和 简单 的 输出 插件 。 同 样 在 这 里 简单 介绍 一 下 ， 作 为 输出 插件 的 一 个 共性 了 解 。 


配置 示例 如 下 : 


output { 
stdout { 
codec => rubydebug 
workers => 2 


} 


输出 插件 统一 具有 一 个 参数 是 workers。Logstash 为 输出 做 了 多 线程 的 准备 。 


其 次 是 codec 设 置 。codec 的 作用 在 之 前 已 经 讲 过 。 可 能 除了 logstash-codec-multiline， 其 他 codec 揪 件 本 身 并 没有 太 多 的 设置 项 。 所 以 一 般 省 略 掉 后 面 的 配置 区 段 。 换 名 话说。 上 面 配 置 示例 的 完全 
写法 应 该 是 : 


output { 
stdout { 
codec => rubydebug { 
} 


workers => 2 


单 就 logstash-output-stdout 插 件 来 说 ， 其 最 重要 和 常见 的 用 途 就 是 调试 。 所 以 在 不 太 有 效 的 时 候 ， 加 上 命令 行 参数 -vv 运行 ， 查 看 更 多 详细 调试 信息 。 


24.8 TCP 发 送 数据 


虽然 之 前 我 们 已 经 提 到 过 不 建议 直接 使 用 LogStash: : Inputs: : TCP 和 LogStash: : Outputs: : TCP 做 转发 工作 ， 不 过 在 实际 交流 中 ， 发 现 确实 有 不 少 朋友 觉得 这 种 简单 配置 足够 使 用 ， 因 而 不 愿 
意 多 加 一 层 消 息 队 列 的 。 所 以 ， 还 是 把 Logstash 如 何 直接 发 送 TCP 数 据 也 稍微 提 点 一 下 。 


配置 示例 如 下 : 


host =>"192.168.0.2" 
port => 8888 
codec => json lines 


在 收集 端 采 用 TCP 方 式 发 送 给 远 端 的 TCP 端 口 。 这 里 需要 注意 的 是 ， 默 认 的 Codec 选 项 是 json。 而 远 端 的 LogStash: : Inputs: : TCP 的 默认 Codec 选 项 却 是 plain! 所 以 不 指定 各 自 的 Codec， 对 接 肯 
定 是 失败 的 。 


另外 ， 由 于 IO BUFFER 的 原因 ， 即 使 是 两 端 共同 约定 为 json 依 然 无 法 正常 运行 ， 接 收 端 会 认为 一 行 数据 没 结束 ， 一 直 等 待 直至 自己 OutOfMemory! 


所 以 ， 正 确 的 做 法 是 ， 发 送 端 指 定 Codec 为 json_lines， 这 样 每 条 数据 后 面 会 加 上 一 个 回 车 ， 接 收 端 指定 Codec 为 json_lines 或 者 json 均 可 ， 这 样 才能 正常 处 理 。 包 括 在 收集 端 已 经 切割 好 的 字段 ， 也 可 
以 直接 带 入 收集 端 使 用 了 。 


2.4.9 输出 到 HDFS 


数据 写 入 HDFS 是 很 多 日 志 收 集 系统 的 最 终 目 的 。 不 过 Logstash 偏 巧 不 是 其 中 之 一 。 到 


面 分 别 介绍 。 


1. 通 过 HTTP 接 口 


插件 源码 地 址 见 : https://github.com/dstore-dbap/logstash-webhdfs 


该 插件 使 用 Hadoop 的 WebHDFS 接 | 


配置 示例 如 下 : 


前 为 止 ，Logstash 还 没有 官方 支持 的 直接 写 入 HDFS 的 插件 。 而 在 社区 ， 则 有 两 种 不 同 的 解决 方案 可 供 选 择 。 下 


， 其 本 质 就 是 发 送 POST 数 据 ， 可 以 说 实现 起 来 比较 简单 。 未 来 logstash-plugins 官 方 可 能 也 会 收 这 个 插件 。 


output { 
hadoop_webhdfs { 
workers => 2 


server =>"your.nameno.de:14000" 


user =>"flume" 


path =>"/user/flume/logstash/dt=%{+¥}-%{+M}-%{+d}/logstash-%{+H}.log" 


flush_size => 500 


compress =>"snappy" 
idle flush_time => 10 
retry_interval => 0.5 


插件 使 用 方式 ， 和 其 他 自 定义 插件 一 样 ， 通 过 一 一 pluginpath 或 者 打包 gem 均 可 。 


2. 通 过 Java 接 


插件 源码 地 址 见 : https://github.com/avishai-ish-shalom/logstash-hdfs 


该 插件 使 用 Hadoop 的 HDFS 接 口 ， 利 用 JRuby 可 以 直接 导入 Java 类 的 特性 ， 直 接 使 


配置 示例 如 下 : 


了 org.apache.hadoop.fs.FileSystem 等 类 来 实现 。 


output { 
hdfs { 


path =>"/path/to/output_file.log" 
enable_append => true 


} 


因为 需要 导入 各 种 Hadoop 的 jar 包 ， 所 以 这 个 运行 比较 麻烦 。Logstash-1.4.2 上 的 运行 命令 示例 如 下 : 


# LD LIBRARY PATH="/usr/lib/hadoop/lib/native" GEM_HOME=./logstash-1.4.2/vendor/bundle/jruby/1.9 CLASSPATH=$ (find ./logstash-1.4.2/vendor/jar -type f -name '*.jar'|tr '\n' ':') 


如 果 使 用 Logstash-1.5 版 本 ， 


可 以 通过 rubygems.org 直 接 安装 打包 好 的 插件 : 


# bin/plugin install logstash-output-hdfs 


# LD LIBRARY PATH="/usr/lib/hadoop/lib/native" CLASSPATH=$ (find /usr/lib/hadoop-hdfs -type f -name '*.jar' | tr '\n' ':'):$(find /usr/lib/hadoop -type f -name '*.jar' | grep -v 


第 3 章 场景 示例 


前 面 虽 然 介绍 了 几 十 个 Logstash 插 件 的 常见 配置 项 ， 但 是 过 多 的 选择 下 ， 如 何 组 合 使 用 这 些 插件 ， 依 然 是 一 部 分 用 户 的 难题 。 本 章 将 列举 一 些 最 常见 的 日 志 场 景 ， 演 示 针 对 性 的 组 件 搭配 ， 希 望 能 给 读 


者 带 来 启发 。 


本 章 介绍 的 场景 包括 : Nginx 访 问 日 志 、Nginx 错 误 日 志 、Postfix 日 志 、Ossec 日 志 、Windows 系 统 日 志 、Java 日 志 、MySQL 慢 查询 日 志 、Docker 容 器 日 志 。 


3.1 ”Nginx 访 问 日 志 
访问 日 志 处 理 分 析 绝 对 是 使 


3.1.1 grok 处 理 方式 


ELK stack 时 最 常见 的 需求 。 默 认 的 处 理 方式 下 ， 性 能 和 精确 度 都 不 够 好 。 本 节 会 列举 对 Nginx 访 问 


Logstash 默 认 自 带 了 Apache 标 准 日 志 的 grok 正 则 表达 式 : 


COMMONAPACHELOG %{IPORHOST:clientip} %{USER:ident} %{NOTSPACE:auth}\[%{HTTPDATE: 
timestamp}\] "(?:%{WORD:verb} %{NOTSPACE: request} (?: HTTP/%{NUMBER:httpversion}) ? 
| S{DATA: rawrequest})" %{NUMBER: response} (?:%{NUMBER:bytes} |-) 

COMBINEDAPACHELOG %{COMMONAPACHELOG} %{QS:referrer} %{QS:agent} 


志 的 几 种 不 同 处 理 方式 ， 并 阐明 其 优 劣 。 


对 于 Nginx 标 准 日 志 格 式 ， 可 以 发 现 只 是 最 后 多 了 一 个 $http_x_forwarded for 变 量 。 所 以 Nginx 标 准 日 志 的 grok 正 则 定义 是 : 


MAINNGINXLOG %{COMBINEDAPACHELOG} %{QS:x_forwarded_for} 


自 定义 的 日 志 格式 ， 可 以 照 此 修改 。 


3.1.2 split 处 理 方式 


Nginx 日 志 因 为 部 分 变量 中 内 含 空格 ， 所 以 很 多 时 候 只 能 使 用 %{QS} 正 则 来 做 分 隔 ， 性 能 和 细 度 都 不 太 好 。 如 果 能 自 定义 一 个 比较 少见 的 字符 作为 分 隔 符 ， 那 么 处 理 起 来 就 简单 多 了 。 假 设 定义 的 日 志 
格式 如 下 : 


log_format main "$http_x forwarded for | $time local | $request | $status | 
Sbody_bytes_sent | " 

"$request body | $content_length | $http_referer | $http user_agent | $nuid | " 

"Shttp_cookie | Sremote_addr | $hostname | Supstream_addr | Supstream_response_ 
time | $request_time"; 


实际 日 志 如 下 : 


117.136.9.248 | 08/Apr/2015:16:00:01 +0800 | POST /notice/newmessage?sign=cba4f614e05db285850cadc696fcdad0&token=JAGQ92Mjs3--gik b DsPIQHcyMKYGpDádid=b749736ac70f12df700b18cd6c 


然后 还 可 以 针对 request 做 更 细致 的 切 分 。 比 如 URL 参 数 部 分 。 很 明显 ，URL 人 参数 中 的 字段 顺序 是 乱 的 。 第 一 行 问号 之 后 的 第 一 个 字段 是 sign， 第 二 
行 切 分 ， 取 出 每 个 字段 对 应 的 值 。 官 方 自 带 grok 满 足 不 了 要 求 ， 最 终 采 用 的 Logstash 配 置 如 下 : 


问号 之 后 的 第 一 个 字段 是 appv。 所 以 需要 将 字段 进 


filter { 
ruby { 

init =>"@kname =['http x forwarded _for','time local’, 'request', 'status', 
"body_bytes_sent', 'request_body', 'content_length', 'http_referer', 'http_ 
user_agent', 'nuid', 'http_cookie', 'remote_addr', 'hostname', 'upstream 
addr", "upstream response time', 'request_time']" z 

code => " > ~ a 
new event = LogStash: :Event .new(Hash[@kname.zip (event .get ('message') .split('|'))]) 
new_event. remove ('@timestamp') 
event .append (new_event) 


} 
f 
if [request] { 
ruby { 
init "@kname = ['method', 'uri', 'verb']" 
code => " 
new_event = LogStash: :Event .new (Hash [@kname. zip (event .get ('request').split(' '))]) 
new _event.remove ('@timestamp') 
event . append (new_event) 


if [uri] { 
ruby { 
init =>"@kname = ['url_path','url_args']" 
code => " 
new_event = LogStash: :Event .new (Hash [@kname.zip (event.get ('uri').split('?'))]) 
new_event «remove ('@timestamp') 
event .append (new_event) 


kv { 
prefix =>"url_" 
source =>"url_args" 
field split =>"g" 
remove_field => [ "url_args", "uri 
} 
} 
} 
mutate { 
convert => [ 
"body bytes sent" , "integer", 
"content_length", "integer", 
"upstream response time", "float", 


"request time", "float" 
] 
} 
date { 


match => [ "time local", "dd/MMM/yyyy:hh:mm:ss Z" ] 
locale =>"en" 


最 终结 果 如 下 : 


{ 

"message" =>"1.43.3.188 | 08/Apr/2015:16:00:01 +0800 | POST /search/sug 
gest Pappv=3.0.3&did=d£d5629d705d400795£698055806f£01d&dt=i Phone7%2C2&im= 
AC926907-27AA-4A10-9916-C5DC75F29399&la=cnélatitude=-33 .903867&1lm= 
sinaé&longitude=151.208137&1p=-1.000000&net=0-0-wifi&osn=i0S&o0sv=8 .1.3&sh=66 
7.000000&sw=375 .000000&token=_ovaPz6Ue68ybBuhXust PbG-xf1WbsPO&ts= 
1428480001567 HTTP/1.1 | 200 | 353 | abcd-sign-vl://a24b478486d3bb92ed8 9a- 
901541b60a5 :b23e9d2c14£e6755/ {\\x22key\\x22:\\x22last\\x22, \\x220ffset\\x22: 
\\x220\\x22, \\x22token\\x22:\\x22_ovaPz6Ue68ybBuhXust PbG-xf1WbsPO\\x22, 
\\x22Limit\\x22:\\x2220\\x22} | 148 | - | abcdShopping/3.0.3 (iPhone; iOS 
8.1.3; Scale/2.00) | nuid=OBOAOAOA9A64AF54F97634640230944E1428480001.113 
| nuid=CgoKC1SvZJpkNHb5TpQwAg== | 10.10.10.11 | bnx02.abcdprivate.com | 
10.10.10 29999 | 0.070 | 0.071", 

"@version" 


"@timestamp 2015-04-08T08:00:01.0002", 
"type" =>"nginxapiaccess", 
"host" ‘blog05.abcdprivate.com", 


"path" =>"/home/nginx/logs/api.access.log", 

"http x forwarded for" =>"1.43.3.188", 

"time local" =>" 08/Apr/2015:16:00:01 +0800", 

"status" "200", 

"body bytes sent" => 353, 

"request body" =>"abcd-sign-v1: //a24b478486d3bb92ed8 9a901541b60a5 :b23e9d2c1 
4£e6755/{\\x22key\\x22:\\x22last\\x22, \\x22o0ffset\\x22:\\x220\\x22, \\x22token 
\\x22:\\x22_ovaPz6Ue68ybBuhXust PbG-xf 1WbsPO\\x22, \\x221Limit\\x22:\\x2220\\x22}", 

"content length™ => 148, 

"http_referer" r 

“http user_agent" =>"abcdShopping/3.0.3 (iPhone; iOS 8.1.3; Scale/2.00)", 

"nuid" =>"nuid=0BOAQA0A9A64AF54F97634640230944E1428480001.113", 

"http_cookie" =>"nuid=CgoKC1SvZJpkNHbSTpQwAg==", 

"remote_addr" =>"10.10.10.11", 

"hostname" =>"bnx02.abcdprivate.com", 

"upstream addr" =>"10.10.10.26:9999", 

"upstream response time" => 0.070, 

"request time" => 0.071, 

"method! 


Phone7%2C2", 
= .C926907-27AA-4A10-9916-C5DC75F29399", 
"url la" =>"cn", 

"url latitude" 
"url lm" =>"sina", 

"url longitude" =>"151.208137", 
"url_lp" =>"-1.000000", 


33.903867", 


"url net" =>"0-0-wifi", 

"url osn" =>"i0S", 

"url osv" =>"8.1.3", 

"url_sh" =>"667.000000", 

"url sw" =>"375.000000", 

"url token" =>"_ovaPz6Ue68ybBuhXustPbG-xflWbsPO", 
nari ta" =>"1428480001567" 

} 


如 果 URL 参 数 过 多 ， 可 以 不 使 用 kv 切 分 ,或 者 预先 定义 成 nested object 后 改 成 数组 形式 : 


if [uri] { 
ruby { 
init =>"@kname = ['url path','url args']" 
code => " T = 
new event = LogStash: :Event .new (Hash [@kname. zip (event .get ('request') .split('?'))]) 
new_event . remove ('@timestamp') 
event .append (new_event) 


} 
if [url_args] { 


ruby { 

init => "@kname = ['key', 'value']" 

code => "event.set ('nested_args', event.get('url_args').split('&').collect {|i| Hash[@kname.zip(i.split('='))]})" 
remove_field => [ "url_args","uri","request" ] 


} 


采用 nested object 的 优化 原理 和 nested object 的 使 用 方式 ， 请 阅读 后 面 第 11 章 中 介绍 Elasticsearch 调 优 的 内 容 。 


3.1.3 JSON 格 式 


自 定义 分 隔 符 虽 好 ， 但 是 配置 写 起 来 毕竟 复杂 很 多 。 其 实 对 Logstash 来 说，Nginx 日 志 还 有 另 一 种 更 简便 的 处 理 方式 ， 就 是 自 定义 日 志 格式 时 ， 通 过 手工 拼写 直接 输出 成 JJON 格 式 : 


log format json '{"@timestamp":"$time iso8601"， ' 
"host": "$server_addr", ' T 
'"clientip":"$remote_addr", ' 
'"size":$body_bytes_sent, ' 
'"responsetime" :$request_time, ' 
'"upstreamtime" :"$upstream response_time", ' 


wot 
r 


'xff":"Shttp_x forwarded for", ' 
"refer “Shttp_referer", ' 
‘agent":"S$http_user_agent",' 


status": "Sstatus"}'; 


然后 采用 下 面 的 Logstash 配 置 即 可 : 


input { 
file { 
path =>"/var/log/nginx/access.log" 
codec => json 


} 


} 
filter { 
mutate { 
split => [ "upstreamtime", "," ] 
mutate { 
convert => [ "upstreamtime", "float" ] 


} 


这 里 采用 多 个 mutate 播 件 ， 是 因为 upstreamtime 可 能 有 多 个 数值 ， 所 以 先 切 割 成 数组 以 后 ， 再 分 别 转换 成 浮 点 型 数值 。 而 在 mutate 中 ，convert 函 数 的 执行 优先 级 高 于 split 函 数 ， 所 以 只 能 分 开 两 步 
写 。mutate 内 各 函数 的 优先 级 顺序 ， 之 前 2.3.8 节 有 详细 说 明 ， 读 者 可 以 返回 去 阅读 。 


3.1.4 syslog 方式 发 送 


Nginx 从 1.7 版 开始 ， 加 入 了 syslog 支 持 ，Tengine 则 更 早 。 这 样 ， 我 们 可 以 通过 syslog 直 接 发 送 日 志 。Nginx 上 的 配置 如 下 : 


access_log syslog:server=unix:/data0/rsyslog/nginx.sock locallog; 


或 者 直接 发 送 给 远程 Logstash 机 器 : 


access_log syslog:server=192.168.0.2:5140, facility=local6, tag=nginx-access, 
severity=info logstashlog; 


默认 情况 下 ，Nginx 将 使 用 local7.info 等 级 ， 以 nginx 为 标签 发 送 数据 。 注 意 ， 采 用 syslog 发 送 日 志 的 时 候 ， 无 法 配置 buffer= 16k 选 项 。 


3.2 ”Nginx 错 误 日 志 


Nginx 错 误 日 志 是 运 维 人 员 最 常见 但 又 极其 容易 忽略 的 日 志 类 型 之 一 。 本 节 介 绍 对 Nginx 错 误 日 志 的 处 理 方式 ， 并 推荐 读者 在 性 能 优化 中 对 此 多 加 关注 。Nginx 错 误 日 志 既 没有 统一 明确 的 分 隔 符 ， 也 没 
有 特别 方便 的 正则 模式 ， 但 通过 Logstash 不 同 插件 的 组 合 ， 还 是 可 以 轻松 进行 数据 处 理 的 。 


值得 注意 的 是 ，Nginx 错 误 日 志 中 有 一 类 数据 是 接收 过 大 请 求 体 时 的 报错 ， 默 认 信息 会 把 请 求 体 的 具体 字 节 数 记 录 下 来 。 每 次 请 求 的 字 节 数 基本 都 是 在 变化 的 ， 这 意味 着 常用 的 topN 等 聚合 函数 对 该 字 
段 没有 明显 效果 。 所 以 ， 对 此 需要 做 一 下 特殊 处 理 。 


最 后 形成 的 Logstash 配 置 如 下 所 示 : 


filter { 
grok { 
match => { "message" =>" (?<datetime>\d\d\d\d/\d\d/\d\d \d\d:\d\d:\d\d) 
\[ (?<errtype>\w+) \] \S+: \*\d+ (?<errmsg>[*,]+), (?<errinfo>.*)$" } 


mutate { 


rename => [ "host", "fromhost" ] 
gsub => [ "errmsg", "too large body: \d+ bytes", "too large body" ] 


if [errinfo] 


{ 


ruby { 
code => " 
new_event = LogStash: :Event .new (Hash [event .get ('errinfo').split(', ').map{|1| l.split(': ')}]) 
new_event «remove ('@timestamp') 
event .append (new_event)"" 
} 
} 
grok { 
match => { "request" => '"%{WORD:verb} %{URIPATH:urlpath} (?:\?%{NGX 
URIPARAM:urlparam})?(?: HTTP/%{NUMBER:httpversion})"' } T 
patterns dir =>["/etc/logstash/patterns"] 
remove_field => [ "message", "errinfo", "request" ] 


经 过 以 上 Logstash 配 置 的 Nginx 错 误 日 志 生 成 的 事件 如 下 所 示 : 


{ 
"@version": "1", 
: "2015-07-02T01:26:40.0002", 


"error", 

"client intended to send too large body", 
: "web033.mweibo.yf.sinanode.com", 
"client": "36.16.7.17", 


"server": "api.v5.weibo.cn", 
"host": "\"api.weibo.cn\"", 
"verb": "POST", 


"urlpath": "/2/client/addlog_batch", 

"urlparam": "gsid=_2A254UNaSDeTxGeRI7FMX9CrEyj2IHXVZRGlarDV6PUJbrdANLROskWp9b 
XakjUZM5792FW9ASS9EU4jxqgOhttp: //www.hzcourse.com/resource/readBook ?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/. . awm=3333_2001&i=0c6£156&b=1&from=1053093C 
iphoneév_p=21&skin=defaultév_f=1&s=8f14e573&lang=zh_CNé&ua=iPhone7,1_weibo _ T T 
5.3.0 iphone os8.3", 

"httpversion": "1.1" 

} 


3.3 ”Postfix 日 志 


Postfix 是 Linux 平 台 上 最 常用 的 邮件 服务 器 软件 。 邮 件 服务 的 运 维 复杂 度 一 向 较 高 ， 在 此 提供 一 个 针对 Postfix 日 志 的 解析 处 理 方案 。 方 案 出 自 : https://github.com/whyscream/postfix-grok- 


patterns, 


因为 Postfix 默 认 通过 syslog 方 式 输出 日 志 ， 所 以 可 以 选择 通过 rsyslog 直 接 转 发 给 Logstash， 也 可 以 由 Logstash 读 取 rsyslog 记 录 的 文件 。 


Postfix 会 根据 实际 日 志 的 不 同 ， 主 动 设置 好 不 同 的 syslogtag， 有 anvil、bounce、cleanup、dnsblog、local、master、pickup、pipe、postdrop、postscreen、qmgr、scache、sendmail、 
smtp、Imtp、smtpd、tlsmgr、tlsproxy、trivial-rewrite 和 discard 等 20 个 不 同 的 后 缀 ， 而 在 Logstash 中 ，syslogtag 通 常 被 解析 为 program 字 段 。 本 节 以 第 一 种 anvil 上 日 志 的 处 理 配置 作为 示例 : 


input { 
syslog { } 


filter { 
if [program] =~ /*postfix.*\/anvil$/ { 
grok { 
patterns dir =>["/etc/logstash/patterns.d"] 
match T => [ "message", "%{POSTFIX_ANVIL}" ] 
tag_on failure => [ "_grok_postfix_anvil_nomatch" ] 
add tag => [ "_grok postfix success" ] 
} 
} 
mutate { 
convert => [ 
"postfix anvil cache siz "integer", 
"postfix anvil conn count", "integer", 
"postfix anvil conn rate", "integer", 


配置 中 使 用 了 一 个 叫 POSTFIX_ANVIL 的 自 定义 grok 正 则 ,该 正则 及 其 相关 正则 内 容 如 下 所 示 。 将 这 段 grok 正 则 保存 成 文本 文件 ， 放 入 /etc/logstash/patterns.d/ 目 录 即 可 使 用 。 


POSTFIX TIME UNIT %{NUMBER} [smhd] 

POSTFIX ANVIL CONN RATE statistics: max connection rate %{NUMBER:postfix_anvil_conn_ 
rate}/%{POSTFIX_TIME UNIT:postfix_anvil_conn_ period} for \ (S{DATA:postfix_ 
service}:%{IP:postfix_client_ip}\) at %{SYSLOGTIMESTAMP:postfix_anvil_ 
timestamp} 

POSTFIX ANVIL CONN CACHE statistics: max cache size %{NUMBER:postfix anvil 
cache_size} at %{SYSLOGTIMESTAMP:postfix_anvil_timestamp} ~ T 

POSTFIX ANVIL CONN COUNT statistics: max connection count %{NUMBER:postfix 
anvil_conn_count} for \(%{DATA:postfix_service}:%{IP:postfix_client_ip}\) at 
%{SYSLOGTIMESTAMP: postfix anvil timestamp} 

POSTFIX ANVIL %{POSTFIX ANVIL CONN RATE}|%{POSTFIX ANVIL _CONN_CACHE} |%{POSTFIX_ 
ANVIL_CONN_COUNT} 


其 余 19 种 Postfix 日 志 的 完整 grok 正 则 和 Logstash 过 滤 配 置 ， 读 者 可 以 通过 https://github.com/whyscream/postfix-grok-patterns 获 取 。 


3.4 ”Ossec 日 志 
Ossec 是 一 款 开 源 的 多 平台 入 侵 检测 系统 。 将 Ossec 的 监测 报警 信息 转发 到 ELK 中 ， 无 疑 可 以 极 大 地 帮助 我 们 快速 可 视 化 安全 事件 。 本 节 介 绍 Ossec 与 Logstash 的 结合 方式 。 


3.4.1 ”配置 所 有 Ossec agent 采 用 syslog 输 出 


配置 步骤 如 下 : 
1) 编辑 ossec.conf 文 件 (默认 为 /var/ossec/etc/ossec.conf) 。 


2) 在 ossec.conf 中 添加 下 列 内 容 (10.0.0.1 为 接收 syslog 的 服务 器 ) : 


<syslog_output> 
<server>10.0.0.1</server> 
<port>9000</port> 
<format>default</format> 
</syslog_output> 


3) 开启 Ossec 人 允许 syslog 输 出 功能 : 


/var/ossec/bin/ossec-control enable client-syslog 


4) 重启 Ossec 服 务 : 


由 


/var/ossec/bin/ossec-control start 


3.4.2 配置 Logstash 


在 Logstash 配 置 文件 中 增加 (或 新 建 ) 如 下 内 容 (假设 10.0.0.1 为 Elasticsearch 服 务 器 ) : 


input { 
udp { 
port => 9000 
type =>"syslog" 
} 
} 


filter { 


if [type] == "syslog" { 
grok { 
match => { "message" =>"%{SYSLOGTIMESTAMP: syslog timestamp} %{SYSLOGHOST: 
syslog_host} %{DATA:syslog program}: Alert Level: %{BASE10NUM: 
Alert Level}; Rule: %{BASE1ONUM:Rule} - %{GREEDYDATA:Description}; 
Location: %{GREEDYDATA:Details}" } 
add field => [ "ossec_server", "%{host}" ] 
} 
mutate { 
remove_field => [ "syslog_hostname", "syslog_message", "syslog pid", 
"message", "@version", "type", "host" ] ~ 
} 
} 
} 
output { 


elasticsearch { 


} 


3.4.3 ”推荐 Kibana 仪 表盘 


[R] 


社区 已 经 有 人 根据 Ossec 的 常见 需求 制作 了 仪表 盘 ， 可 以 直接 从 Kibana 3 页 面 加 载 使 用 ， 示 例如 图 3-1 所 示 。 


仪表 盘 的 JSON 文 件 见 : https://github.com/magenx/Logstash/raw/master/kibana/kibana_dash-board.json。 


加 载 方式 请 阅读 本 书 第 三 部 分 介绍 的 Kibana 相 关内 容 。 


3.5 ”Windows 系 统 日 志 


jlin} 


有 实 上 ， 对 于 Windows 平 台 ， 也 有 类 似 syslog 的 设 


Logstash 社 区 有 众多 的 Windows 用 户 ， 本 节 单 独 介绍 一 下 对 Windows 平 台 系 统 日 志 的 收集 处 理 。 之 前 介绍 过 Linux 上 的 系统 日 志 ， 即 syslog 的 处 理 。 
计 ， 叫 eventlog。 本 节 介绍 如 何 处 理 Windows eventlog。 


3.5.1 “采集 端 配置 


由 于 Logstash 作 者 出 身 Linux 运 维 ， 早 期 版 本 中 出 了 不 少 Windows 平 台 上 独 有 的 bug。 所 以 ， 目 前 对 Windows 上 的 日 志 ， 推 荐 大 家 在 尝试 Logstash 的 同时 ， 也 可 以 试用 更 稳定 的 nxlog 软 件 。nxlog 更 
详细 的 介绍 ， 请 阅读 本 书后 面 5.5 节 。 


这 里 先 介绍 Logstash 和 nxlog 在 处 理 Windows 的 eventlog 时 的 配置 方法 。 


Logstash 配 置 如 下 : 
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图 3-1 Ossec 仪 表盘 


input { 
eventlog { 


#logfile => 
logfile => 


type =>"winevent" 
tags => [ "caen" ] 


["Application", "Security", "System"] 
["Security"] 


nxlog 配 置 中 有 如 下 几 个 要 点 : 


1) ROOT 位 置 必须 是 nxlog 的 实际 安装 路 径 。 


2) 输入 模块 ， 在 Windows 2003 及 之 前 版 本 上 ， 不 叫 im_msvistalog 而 叫 im_mseventlog。 


下 面 是 一 段 完 整 的 nxlog 配 置 示例 : 


define ROOT C:\Program Files (x86) \nxlog 
Moduledir %ROOT%\modules 


CacheDir %ROOT%\data 


Pidfile %ROOT%\data\nxlog.pid 


SpoolDir %ROOT%\data 


LogFile %ROOT%\data\nxlog.log 


<Extension json> 
Module xm json 


</Extension> 
<Input in> 
Module im msvistalog 
Exec to json(); 
</Input> 


<Output out> 
Module om tcp 


Host 10.66.66.66 


Port 5140 
</Output> 
<Route 1> 

Path in => out 
</Route> 


3.5.2 ”接收 解析 端 配置 


在 中 心 的 接收 端 ， 统 一 采 


的 字段 转换 成 Logstash 更 通 上 


的 风格 设计 。 


在 之 前 插件 介绍 章节 我 们 已 经 讲 过 ， 
logstash-filter-mutate 的 rename 功 能 来 完成 对 字段 名 称 的 小 写 化 让 


配置 示例 如 下 : 


命名 。 


因为 在 Elasticsearch 中 默认 按 小 写 来 检索 ， 所 以 需要 尽量 把 数据 小 写 化 。 不 巧 的 是 ，nxlog 中 ， 不 单数 据 内 容 ， 字 段 名 称 也 是 大 小 写 混 上 


的 


Logstash 来 完成 解析 入 库 操作 。 如 果 采 集 端 也 是 Logstash， 主 要 字段 都 已 经 生成 ， 接 收 端 配置 也 就 没什么 特别 的 了 。 如 果 采 和 集 端 是 nxlog， 那 么 我 们 还 需要 把 一 些 nxlog 生 成 


， 所 以 ,我们 只 能 通过 


input { 
tcp { 
codec =>"json" 
port => 5140 


tags => ["windows", "nxlog"] 
type =>"nxlog-json" 


} 
} # end input 


filter { 
if [type] == "nxlog-json" { 

date { 
match => ["(EventTime]", "YYYY-MM-dd HH:mm:ss"] 
timezone =>"Europe/London" 

} 

mutate { 
rename => "AccountName", "user" ] 
rename => [ "AccountType", "[eventlog] [account _type]" ] 
rename => [ "ActivityId", "[{eventlog] [activity _id]" ] 
rename => "Address", "ip6" ] 
rename => "ApplicationPath", "[eventlog] [application_path]" ] 
rename => "AuthenticationPackageName", "[eventlog] [authentication_package_name]" ] 
rename => [ "Category", "[eventlog] [category]" ] 
rename => [ "Channel", "[eventlog] [channel]" ] 
rename => "Domain", "domain" ] 
rename => "EventID", "[eventlog] [event_id]" ] 
rename => "EventType", "[eventlog] [event_type]" ] 
rename => [ "File", "[eventlog] [file path]™ ] 
rename => [ "Guid", "[eventlog] [guid]" 
rename => "Hostname", "hostname" 
rename => "Interface", "[eventlog] [interface]" ] 
rename => "InterfaceGuid", "[eventlog] [interface _guid]" ] 
rename => "InterfaceName", "[eventlog [interface name]" ] 
rename => [ "IpAddress", "ip" 
rename => [ "IpPort", "port" ] 
rename => "Key", "[eventlog] [key]" 
rename => "LogonGuid", "[eventlog] [logon_guid]" ] 
rename => "Message", "message" ] 
rename => "ModifyingUser", "[eventlog] [modifying _user]" ] 
rename => "NewProfile", "[eventlog. new profile]™ ] 
rename => "OldProfile", "[eventlog] [old_profile]" ] 
rename => "Port", "port" 
rename => "PrivilegeList", "[eventlog] [privilege_list]" ] 
rename => [ "ProcessID", "pid" ] > 
rename => "ProcessName" [eventlog] [process name]" ] 
rename => "ProviderGuid", "[eventlog] provider guid]" ] 
rename => "ReasonCode", "[eventlog reason_code]" J 
rename => "RecordNumber", "[eventlog] [record_number]" ] 
rename => "ScenarioId", "[eventlog scenario id] | 
rename => "Severity", "level" ] 
rename => "SeverityValue", "[eventlog] [severity _code]" ] 
rename => [ "SourceModuleName", "nxlog_input" ] 
rename => "SourceName", "[eventlog program] La 
rename => "SubjectDomainName", "[eventlog] [subject_domain_name]" ] 
rename => [ "SubjectLogonId", "[eventlog] [subject _logonid]" ] 
rename => [ "SubjectUserName", "[eventlog] [subject_user_name]" ] 
rename => "SubjectUserSid", "[eventlog] [subject_user_sid]" ] 
rename => [ "System", "[eventlog] [system]" ] = = 
rename => [ "TargetDomainName", "[eventlog] [target domain name]" ] 
rename => [ "TargetLogonId", "[eventlog] [target_logonid]" ] 
rename => "TargetUserName", "[eventlog] [target user name]" ] 
rename => [ "TargetUserSid", "[eventlog] [target User sid]" ] 
rename => [ "ThreadID", "thread" ] T ~ 

mutate { 


remove field => [ 


"CurrentOrNextState", "Description", "EventReceivedTime", "EventTime", "EventTimeWritten", "IPVersion' 


] 


, 


KeyLength", "Keywords 


, 


ImPackageName 


1 


LogonProcessName", "Loc 


3.6 Java 日 志 


之 前 在 2.2 节 有 关 codec 的 介绍 中 曾经 提 到 过 ， 对 Java 


日 志 ， 除 了 使 


3.6.1 Log4J 配 置 


首先 ， 需 要 配置 Java 应 


的 Log4J 设 置 ， 启 动 一 个 内 置 的 SocketAppender。 修 改 应 


multiline 做 多 行 日 志 合并 以 外 ， 还 可 以 直接 通过 Log4J 写 入 logstash 里 。 本 节 就 讲述 如 何在 Java 应 


环境 做 到 这 点 。 


的 log4j.xm 配 置 文件 ， 添 加 如 下 配置 段 : 


<appender name="LOGSTASH" class="org.apache.1log4j.net.SocketAppender"> 
<param name="RemoteHost" value="logstash_hostname" /> 

<param name="ReconnectionDelay" value="60000" /> 

<param name="LocationInfo" value="true" /> 

<param name="Threshold" value="DEBUG" /> 

</appender> 


然后 把 这 个 新 定义 的 appender 对 象 加 入 root logger 里 ， 可 以 跟 其 他 已 有 logger 共 存 : 


<root> 

<level value="INFO"/> 
<appender-ref ref="OTHERPLACE"/> 
<appender-ref ref="LOGSTASH"/> 
</root> 


如 果 是 log4j.properties 配 置 文件 ， 则 对 应 配置 如 下 : 


log4j.rootLogger=DEBUG, logstash 

##4#SocketAppender### 

log4j.appender. logstash=org.apache.1log4j.net .SocketAppender 
log4j.appender. logstash. Port=4560 

1og4j .appender. logstash.RemoteHost=logstash_hostname 

log4j .appender. logstash.ReconnectionDelay=60000 
log4j.appender. logstash. LocationInfo=true 


Log4J 会 持续 尝试 连接 你 配置 的 logstash_hostname 这 个 地 址 ， 建 立 连 接 后 ， 即 开始 发 送 


3.6.2 ”Logstash 配 置 


Java 应 


端的 配置 完成 以 后 ， 开 始 设置 Logstash 的 接收 端 。 配 置 如 下 所 示 ， 其 中 4560 端 口 是 Log4J SocketAppender 的 默认 对 端 端口 : 


input { 
log4j { 
type 
port 


=>"log4j-json" 
=> 4560 


3.6.3 ”异常 堆栈 测试 验证 


运行 Logstash 后 ,编写 一 个 简单 的 Log4J 程 序 : 


import org.apache.10g4j.Logger; 
public class HelloExample{ 
final static Logger logger = Logger.getLogger (HelloExample.class) ; 
public static void main(String[] args) { 
HelloExample obj = new HelloExample(); 
try{ 
obj .divide (); 
}catch (ArithmeticException ex) { 
logger.error("Sorry, something wrong!", ex); 


} 
private void divide (){ 
int i = 10 /0; 


# javac -cp ./logstash-1.5.0.rc2/vendor/bundle/jruby/1.9/gems/logstash-input— 
log4j-0.1.3-java/lib/log4j/log4j/1.2.17/log4j-1.2.17.jar HelloExample.java 

# java -cp .:./logstash-1.5.0.rc2/vendor/bundle/jruby/1.9/gems/logstash-input- 
1og4j-0.1.3-java/lib/1og4j/10g4j/1.2.17/log4j-1.2.17.jar HelloExample 


这 样 即 可 在 Logstash 的 终端 输出 看 到 如 下 事件 记录 : 


"message" 
"@version 
"@timestamp" 


"Sorry, something wrong!", 


"127.0.0.1:52420", 
"path" =>"HelloExample", 
"priority" =>"ERROR", 
"logger_name" =>"HelloExample", 
“thread” =>"main", 
"class" =>"HelloExample", 
"file" HelloExample.java:9", 
"method" =>"main", 
"stack _ trace" =>"java.lang.ArithmeticException: / by zero\n\tat HelloExample. 
divide (HelloExample.java:13)\n\tat HelloExample.main (HelloExample.java:7)" 


} 


可 以 看 到 ， 异 常 堆栈 直接 记录 在 单行 内 了 。 


3.6.4 JSON Event layout 


如 果 无 法 采 


SocketAppender， 必 须 使 用 文件 方式 的 ， 其 实 Log4J 有 一 个 layout 特 性 ， 用 来 控制 


日 志 输出 的 格式 。 


和 Nginx 日 志 自己 拼接 JSON 输 出 类 似 ， 也 可 以 通过 layout 功 能 记录 成 JSJON 格 式 。 


Logstash 官 方 提供 了 扩展 包 ， 可 以 通过 mvnrepository.com 搜 索 下 载 : 


# wget http://central.maven.org/maven2/net/logstash/1og4j/jsonevent-layout/1.7/ 
jsonevent-layout-1.7.jar 


或 者 直接 编辑 自己 项 目的 pom.xml 添 加 依赖 : 


<dependency> 
<groupId>net . logstash.1og4j</groupid> 
<artifactId>jsonevent-layout</artifactId> 
<version>1.7</version> 

</dependency> 


然后 修改 项 目的 log4j.properties 文 件 如 下 : 


log4j.rootCategory=WARN, RollingLog 

log4j .appender .RollingLog=org.apache.1og4j.DailyRollingFileAppender 
log4j.appender .RollingLog.Threshold=TRACE 
log4j.appender.RollingLog.File=api.log 

log4j .appender .RollingLog.DatePattern=.yyyy-MM-dd 
log4j.appender.RollingLog. layout=net.logstash.1og4j.JSONEventLayoutV1 


如 果 是 log4j.xml， 则 修改 如 下 : 


<appender name="Console" class="org.apache.1og4j.ConsoleAppender"> 
<param name="Threshold" value="TRACE" /> 
<layout class="net.logstash.log4j.JSONEventLayoutV1" /> 
</appender> 


生成 的 文件 就 是 符合 Logstash 标 准 的 JSON 格 式 了 ，Logstash 使 用 下 面 配置 读 取 : 


input { 
file { 
codec => json 
path => ["/path/to/log4j.log"] 


生成 的 Logstash 事 件 如 下 : 


"mde": {}, 
"line number":"29", 

"class": "org.eclipse.jetty.examples.logging.EchoFormServlet", 

"@version":1, 

"source host": "jvstratusmbp.local", 

"thread_name":"qtp513694835-14", 

"message":"Got request from 0:0:0:0:0:0:0:1%0 using Mozilla\/5.0 (Macintosh; Intel Mac OS X 10_9 1) AppleWebKit\/537.36 (KHTML, like Gecko) Chrome\/32.0.1700.77 Safari\/537. 
"@timestam 014-01-27T19:52:35.7382", 

"level": "INFO" 
"file" choFormServlet.java", 

"method" :"doPost", 
"logger_name":"org.eclipse.jetty.examples.logging.EchoFormServlet" 


可 以 看 到 ， 同 样 达 到 了 效果 。 


如 果 你 使 用 的 不 是 Log4J 而 是 logback 项 目 来 记录 java 日志，Logstash 官 方 也 有 类 似 的 扩展 包 ， 在 pom.xml 中 改 成 如 下 定义 即 可 : 


<dependency> 
<groupId>net . logstash. logback</groupId> 
<artifactId>logstash-logback-encoder</artifactId> 
<version>4.4</version> 

</dependency> 


3.7 ”MySQL 慢 查 询 日 志 


MySQL 有 多 种 日 志 可 以 记录 ， 常 见 的 有 error log, slow log, general log, bin log 等 。 其 中 slow log 作 为 性 能 监控 和 优化 的 入 手 点 ， 最 为 首要 。 本 节 即 讨论 如 何 用 Logstash 处 理 slow log。 至 了 
general log， 格 式 处 理 基本 类 似 ， 不 过 由 于 general 量 级 比 slow 大 得 多 ， 推 荐 采用 packetbeat 协 议 解析 的 方式 更 高 效 地 完成 这 项 工作 ， 相 关内 容 阅读 本 书 稍 后 8.3 节 。 


MySQL slow log 的 Logstash 处 理 配 置 示例 如 下 : 


input { 
file { 

type ysql-slow" 

path /var/log/mysql/mysql-slow.log" 

codec => multiline { 
pattern =>"^# User@Host:" 
negate => true 
what =>"previous" 


} 


$ 
filter { 
# drop sleep events 
grok { 
match => { "message" =>"SELECT SLEEP" } 
add tag => [ "sleep_drop" ] 
tag_on_failure => [] # prevent default _grokparsefailure tag on real records 


} 
if "sleep_drop" in [tags] { 
drop {} 


} 
grok { 
match => [ "message", "(?m)*# User@Host: %{USER:user}\[[*\]]+\] @ (?: (?<clien-thost>\S*) )?\[(?:%{IP:clientip}) ?\]\s*# Query time: %{NUMBER:query time: float}\st+Lock_tin 
} 
date { 
match => [ "timestamp", "UNIX" ] 
remove field => [ "timestamp" ] 


配置 中 ,利用 了 grok 插 件 的 add_tag 选 项 仅 在 成 功 时 添加 ， 而 tag_on_failure 选 项 仅 在 失败 时 添加 的 互 斥 特性 ， 巧 妙 地 过 滤 出 日 志 中 无 


如 下 一 段 多 行 的 MySQL slow log: 


的 sleep 语 句 删 除 掉 。 


# User@Host: logstash[logstash] @ localhost [127.0.0.1] 

# Query time: 5.310431 Lock time: 0.029219 Rows_sent: 1 Rows_examined: 24575727 
SET timestamp=1393963146; 

select count(*) from node join variable order by rand(); 

# Time: 140304 19:59:14 


通过 运行 上 面 的 配置 ，Logstash 即 可 处 理 成 如 下 单个 事件 : 


{ 

"@timestamp" =>"2014-03-04T19:59:06.0002", 

"message" =>"# User@Host: logstash[logstash] @ localhost [127.0.0.1]\n# Query_ 
time: 5.310431 Lock time: 0.029219 Rows sent: 1 Rows_examined: 24575727\nSET 
timestamp=1393963146; \nselect count (*) from node join variable order by rand(); 
\n# Time: 140304 19:59:14", 

"@version" =>"1", 

"tags" => [ 

[0] "multiline" 
r 

"type" =>"mysql-slow", 

"host" =>"raochenlindeMacBook-Air.local", 

"path" =>"/var/log/mysql/mysql-slow.log", 

"user" =>"logstash", 

"clienthost" =>"localhost", 

"clientip" =>"127.0.0.1", 

“query time" => 5.310431, 

"lock time" => 0.029219, 

"rows_sent" => 1, 

"rows examined" => 24575727, 

query" =>"select count (*) from node join variable order by rand();", 

"action" =>"select" 


} 


后 续 即 可 针对 其 中 的 action、query time、lock_ time 和 rows_examined 字 段 做 监控 报警 及 Kibana 可 视 化 统计 了 。 


3.8 Docker 日 志 


Docker 是 目前 大 规模 互联 网 基础 架构 解决 方案 中 最 热门 的 技术 。 它 带 给 运 维 工程 师 一 个 截然 不 同 的 思考 角度 和 工作 方式 。 


就 日 志 层 面 看 ，Docker 最 大 的 影响 在 于 : 其 最 佳 实践 要 求 一 个 容器 内 部 只 有 一 个 生命 周期 随时 可 以 消亡 的 服务 进程 。 这 也 就 意味 着 : 传统 的 写 入 磁盘 ， 固 定 采 集 方式 的 


所 以 ， 在 容器 服务 中 ， 记 录 日 志 需 要 采用 另外 的 方式 。 本 节 将 介绍 其 中 最 常见 的 两 种 : 记录 到 主机 磁盘 ， 或 通过 logspout 收 集 。 


3.8.1 ”记录 到 主机 磁盘 


默认 情况 下 ，Docker 会 将 容器 的 标准 输出 和 错误 输出 ， 保 存在 主机 的 /var/lib/docker/containers/ 目 录 下 。 所 以 ， 在 规模 比较 稳定 的 情况 下 ， 直 接 记录 到 主机 磁盘 ， 然 后 通过 主机 上 的 Logstash 收 集 日 


志 ， 也 是 不 错 的 方案 。 


以 Nginx 为 例 ， 将 Nginx 访 问 日 志和 错误 日 志 输出 到 标准 输出 的 配置 如 下 : 


志 系 统 ， 无 法 正常 发 挥 作用 。 


daemon off; 
error_log /dev/stdout info; 
http { 
access_log /dev/stdout; 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 
} 


不 过 ， 容 器 的 特殊 性 在 这 里 又 一 次 体现 出 来 ， 容 器 中 其 实 是 没有 /dev/stdout 设 备 的 。 所 以 我 们 需要 自己 单独 处 理 一 下 ， 在 Dockerflie 里 加 上 一 句 : 


RUN ln -sf /proc/self/fd /dev/ 


这 样 ， 既 保证 了 nginx.conf 是 主机 和 容器 通用 的 配置 ， 又 顺利 达到 目的 。 


然后 通过 如 下 Logstash 配 置 收集 即 可 : 


input { 
file { 
path => ["/var/lib/docker/containers/*/*-json.log"] 
codec => json 
} 
} 


filter { 
grok { 
match => ["path". "/(?<container_id>\wt)-json.log" ] 
remove_field => ["path"] 
} 
date { 


match => ["time", "ISO8601"] 
} 


3.8.2 ”通过 logspout 收 集 


logspout 是 Docker 生 态 圈 中 最 有 名 的 日 志 收集 方式 ， 其 设计 思路 是 : 每 个 主机 上 启动 一 个 单独 容器 运行 logspout 服 务 ， 负 责 将 同一 个 主机 上 其 他 容器 的 日 志 ， 根 


logspout 的 基本 用 法 如 下 : 


居 route 设 定 ， 转 发 给 不 同 的 接收 端 。 


$ docker pull gliderlabs/logspout: latest 
$ docker run --name="logspout" 
--volume=/var/run/docker.sock: /tmp/docker.sock \ 
gliderlabs/logspout \ 
--publish=127.0.0.1:8000:80 
syslog: //remoteaddr:514 


此 外 ，logspout 提 供 动态 变更 route 的 方式 ， 如 下 所 示 : 


# curl $(docker port ‘docker ps -lq* 8000)/routes \ 
-X POST \ 
-d '{"source": {"filter name": "* db", "types": ["stderr"]}, "target": 
{"type": "syslog", addr": "remoteaddr2:5140"}}' 


这 个 配置 的 意思 是 ， 将 容器 名 带 有 db 字样 的 走 错误 输出 的 采集 的 日 志 ， 以 syslog 协 议 发 送 到 remoteaddr2 主 机 的 5140 端 口 。 


注意 ，logspout 采 用 的 是 REC5424 版 本 的 syslog 协 议 ， 所 以 如 果 使 用 的 接收 方 是 RFC3164 版 本 的 syslog 协 议 解 析 ， 需 要 自己 调整 一 下 。 比 如 logstash-input-syslog 采 用 的 就 是 RFC3164 协 议 ， 所 以 需要 
自己 来 另外 完成 : 


input { 
tep { 
port => 5140 
} 


} 
filter { 
grok { 
match => [ “message” , “<SYSLOG5424PRI:syslog_pri> %{SYSLOG5424LINE:message} “] 
i 


此 外 ，logspout 支 持 模块 化 扩展 ， 所 以 ,我们 也 可 以 直接 在 logspout 上 处 理 成 对 Logstash 更 友好 的 格式 。 扩展 logspout 支 持 Logstash 格 式 的 方法 如 下 : 


1) 编辑 Dockerfile， 修 改 成 如 下 内 容 : 


FROM gliderlabs/logspout :master 
ENV ROUTE_URIS=logstash: //host:port 


2) 编辑 modules.go， 修 改 成 如 下 内 容 : 


Package main 
import ( 
"github.com/looplab/logspout-logstash" 
~ "github.com/gliderlabs/logspout/transports/udp" 
) 


3) 构建 镜像 : 


docker build 


这 样 ， 后 续 Logstash 就 直接 进行 JSON 解 析 即 可 。 


第 4 章 “性 能 与 监控 


任何 软件 都 需要 掌握 其 性 能 瓶颈 ， 以 及 线 上 运行 时 的 性 能 状态 。Logstash 也 不 例外 。 长 久 以 来 ，Logstash 在 这 方面 一 直 处 于 比较 黑 盒 的 状态 。 因 为 其 内 部 队列 使 用 的 是 标准 的 stud 库 ， 并 非 自 己 实现 ， 
在 Logstash 本 身 源 代码 里 是 找 不 出 来 什么 问题 的 。 我 们 只 能 按照 其 pipeline 原 理 ， 总 结 出 来 一 些 模拟 检测 的 手段 。 本 章 主要 介绍 这 方面 的 内 容 ， 包 括 两 部 分 : 性 能 测试 与 监控 方案 。 在 Logstash 5.0 中 , 一 
大 改进 就 是 学 习 Elasticsearch 的 方式 不 同 了 ， 通 过 API 提 供 了 一 部 分 运行 性 能 指标 ! 本 章 将 重点 介绍 这 方面 的 内 容 。 同 时 ， 作 为 极限 压 测 的 方式 ， 依 然 会 介绍 一 些 模拟 数据 的 生成 、 基 于 Logstash 逻 辑 原理 
的 性 能 测试 方案 和 JVM 指 标 观测 方法 。 


4.1 性 能 测试 


logstash-input-generator 插 件 可 以 在 Logstash 内 部 生产 数据 。 实 际 运行 的 时 候 这 个 插件 是 派 不 上 用 途 的 ， 但 这 个 插件 依然 是 非常 重要 的 插件 之 一 。 因 为 每 一 个 使 用 ELK stack 的 运 维 人 员 都 应 该 清楚 一 
个 道理 : 数据 是 支持 操作 的 唯一 真理 (否则 你 也 用 不 着 ELK) 。 所 以 在 上 线 之 前 ， 你 一 定 会 需要 在 自己 的 实际 环境 中 ， 测 试 Logstash 和 Elasticsearch 的 性 能 状况 。 这 时 ， 这 个 用 来 生成 测试 数据 的 插件 就 有 
了 ! 


4.1.1 配置 示例 


配置 示例 代码 如 下 : 


input { 
generator { 
count => 10000000 
message => '{"keyl":"valuel", "key2": [1,2], "key3": {"subkey1":"subvaluel"}}" 
codec => json 


} 


插件 的 默认 生成 数据 ，message 内 容 是 “Hello World”， 你 可 以 根据 自己 的 实际 需要 这 里 来 写 其 他 内 容 。 


4.1.2 使 用 方式 


做 测试 有 两 种 主要 方式 ， 下 面 分 别 介绍 。 


1. 配 合 LogStash: : Outputs: : Null 


logstash-input-generator 是 无 中 生 有 ，logstash-output-null 则 是 锯 嘴 葫芦 。 事 件 流 转 到 这 里 直接 就 略 过 ， 什 么 操作 都 不 做 。 相 当 于 只 测试 Logstash 的 pipe 和 filter 效 率 。 测 试 过 程 非常 简单 : 


# time ./bin/logstash -f generator_null.conf 
real 3m0.864s 


user 3m39. 031s 
sys 0m51.621s 


2. 使 用 pv 命令 配合 LogStash: : Outputs: : Stdout 和 LogStash: : Codecs: : Dots 


上 面 的 这 种 方式 虽然 想法 挺 好 ， 不 过 有 个 小 漏洞 : Logstash 是 在 JVM 上 运行 的 ， 有 一 个 明显 的 启动 时 间 ， 运 行 也 有 一 段 时 间 的 预 热 后 才 算 稳 定 运行 。 所 以 ， 要 想 更 真实 地 反应 Logstash 在 长 期 运行 时 候 
的 效率 ， 还 有 另 一 种 方法 : 


output { 
stdout { 
codec => dots 


} 


LogStash: : Codecs: : Dots 也 是 一 个 另类 的 Codec 播 件 ， 其 作用 是 : 把 每 个 event 都 变 成 一 个 点 (.) ， 这 样 ， 在 输出 的 时 候 ， 就 变 成 了 一 个 一 个 的 .在 屏幕 上 。 显 然 这 也 是 一 个 为 了 测试 而 存在 的 插 
件 。 


下 面 就 要 介绍 pv 命令 了 。 这 个 命令 的 作用 就 是 作 实时 的 标准 输入 、 标 准 输出 监控 。 我 们 这 里 就 用 它 来 监控 标准 输出 : 


# ./bin/logstash -f generator_dots.conf | pv -abt > /dev/null 
2.2MiB 0:03:00 [12.5kiB/s] 


可 以 很 明显 地 看 到 在 前 几 秒 中 ， 速 度 是 0B/s， 因 为 JVM 还 没 启动 起 来 呢 。 开 始 运行 的 时 候 ， 速 度 依然 不 快 。 慢 慢 增 长 到 比较 稳定 的 状态 ， 这 时 候 的 才 是 你 需要 的 数据 。 


这 里 单位 是 B/s， 但 是 因为 一 个 event 就 输出 一 个 ， 也 就 是 1B。 所 以 12.5kiB/s 就 相当 于 是 12.5k event/s (kiB 指 KB) 。 


Ore 如 果 你 在 CentOS 上 通过 yum 安 装 的 pv 命令 ， 版 本 较 低 ， 可 能 还 不 支持 -a 参 数 ， 单 纯 靠 -bt 参数 看 起 来 还 是 有 点 累 的 。 


如 果 你 要 测试 的 是 input 插 件 的 效率 ， 方 法 也 是 类 似 的 。 此 外 ， 如 果 不 想 使 用 额外 而 且 可 能 低 版 本 的 pv 命令 ， 通 过 logstash-filter-metric 插 件 也 可 以 做 到 类 似 的 效果 ， 官 方 博客 上 
的 https//www.elastic.co/blog/logstash-configuration-tuning 中 对 此 有 详细 阐述 ， 建 议 大 家 阅读 。 


4.1.3 额外 的 话 


既然 单独 用 一 节 来 说 测试 ， 这 里 想 额 外 谈 谈 一 个 很 常见 的 话题 : ELK 的 性 能 怎么 样 ? 


其 实 这 压根 就 是 一 个 不 正确 的 提问 。ELK 并 不 是 一 个 软件 ， 而 是 一 个 并 不 耦合 的 套件 。 所 以 ， 我 们 需要 分 拆 开 讨 论 这 三 个 软件 的 性 能 如 何 ? 怎 么 优化 ? 


` Logstash 的 性 能 。 这 是 最 让 新 人 迷 圳 的 地 方 。 因 为 Logstash 本 身 并 不 维护 队列 ， 所 以 整个 日 志 流转 中 任意 环节 的 问题 都 可 能 看 起 来 像 是 Logstash 的 问题 。 针 对 这 个 问题 ， 一 方面 需要 熟练 使 用 本 节 说 的 测 
试 方法 ， 针 对 自己 的 每 一 段 配置 都 确定 其 性 能 。 另 一 方面 ， 就 是 本 书 之 前 提 到 过 的 ，Logstash 给 自己 的 线程 都 设置 了 单独 的 线程 名 称 ， 你 可 以 在 top-H 结 果 中 查看 具体 线程 的 负载 情况 。 


:Elasticsearch 的 性 能 。 这 里 最 需要 强调 的 是 : lasticsearch 是 一 个 分 布 式 系统 ， 分 布 式 系 统 从 来 不 需要 跟 单机 比较 处 理 能 力 。 所 以 ， 更 需要 关注 的 是 : 在 确定 的 单机 处 理 能 力 的 前 提 下 ， 性 能 是 否 能 做 到 
线性 扩展 。 当 然 ， 这 不 意味 着 说 提高 处 理 能 力 只 能 靠 加 机 器 了 一 一 有 效 利用 mapping API 是 非常 重要 的 。 不 过 暂时 就 不 在 这 里 讲述 了 。 


“Kibana 的 性 能 。 通 常 来 说 ，Kibana 只 是 一 个 单 页 Web 应 用 ， 只 需要 Nginx 发 布 静 态 文件 即 可 ， 没 什么 性 能 问题 。 页 面 加 载 缓慢 ， 基 本 上 是 因为 Elasticsearch 的 请 求 响应 时 间 本 身 不 够 快 导 致 的 。 不 过 一 定 
要 细 究 的 话 ， 也 能 找 出 点 Kibana 本 身 性 能 相关 的 话题 :因为 Kibana 3 默认 是 连接 固定 的 一 个 Elasticsearch 节 点 的 IP 端 口 的 ， 所 以 这 里 会 涉及 一 个 浏览 器 的 同一 IP 并 发 连接 数 的 限制 。 其 次 ， 就 是 Kibana 用 的 
AngulatJS 使 用 了 Promise.then 的 方式 来 处 理 HTTP 请 求 响 应 。 这 是 异步 的 。 


42 ”监控 方案 


Logstash 作 为 日 志 收集 工具 ， 其 最 重要 的 监控 点 就 是 日 志 传输 的 状态 。 在 1.5 版 本 之 前 ， 大 家 通常 采用 上 节 中 logstash-input-generator 揪 件 生成 的 数据 来 作为 运行 时 的 监控 日 志 ， 但 是 日 志 内 容 和 生成 
方式 ， 对 外 部 监控 系统 并 不 是 非常 方便 。Logstash 官 方 为 此 单独 开发 了 heartbeat 插 件 用 来 实现 更 友好 的 状态 监控 。 此 外 ， 我 们 也 可 以 通过 JVM 平 台 上 通用 的 JMX 接 口 ， 详 细 监 控 其 JVM Heap, 
threadcount 等 细节 信息 。 本 节 会 以 Zabbix 监 控 系 统 为 例 ， 介 绍 如 何 使 用 Zabbix 监 控 Logstash 进 程 细 节 。 


4.2.1 logstash-input-heartbeat 心 跳 检 测 方 式 


缺少 内 部 队列 状态 的 监控 办 法 一 直 是 Logstash 最 为 人 泊 病 的 一 点 。 从 logstash-1.5.1 版 开始 ， 新 发 布 了 一 个 logstash-input-heartbeat 揪 件 ， 实 现 了 一 个 最 基本 的 队列 堵塞 状态 监控 , 
配置 示例 如 下 : 
input { 

heartbeat { 


message =>"epoch" 
interval => 60 
type =>"heartbeat" 
add field => { 
"zbxkey" =>"logstash.heartbeat", 
"zbxhost" =>"logstash_hostname" 
} 
} 
tcp { 
port => 5160 
} 


} 
output { 
if [type] == "heartbeat" { 
file { 
path =>"/datal/logstash-log/1local6-5160-%{+YYYY.MM.dd}.1log" 
} 
zabbix { 
zabbix host =>"zbxhost" 
zabbix_key =>"zbxkey" 
zabbix server host =>"zabbix.example.com" 
zabbix value =>"clock" 
} 
} else { 
elasticsearch { } 


示例 中 ， 同 时 将 数据 输出 到 本 地 文件 和 zabbix server。 注 意 ，logstash-output-zabbix 并 不 是 标准 插件 ， 需 要 额外 安装 : 


bin/plugin install logstash-output-zabbix 


文件 中 记录 的 就 是 heartbeat 事 件 的 内 容 ， 示 例如 下 : 


{"clock":1435191129, "host" :"logtes004.mweibo.bx.sinanode.com", "@version":"1", "@timestamp" :"2015-06-25T00:12:09.0422", "type" :"heartbeat", "zbxkey":"logstash.heartbeat", "zbxhost": 


可 以 通过 文件 最 后 的 clock 和 @timestamp 内 容 ， 对 比 当前 时 间 ， 来 判断 Logstash 内 部 队列 是 否 有 堵塞 。 


4.2.2 JMX 启 动 参数 方式 


= 


MX 


Logstash 是 一 个 运行 在 JVM 上 的 软件 ， 也 就 意味 着 JMX 这 种 对 JVM 的 通用 监控 方式 对 Logstash 也 是 一 样 有 效果 的 。 要 给 Logstash 启 
义 ， 或 者 在 运行 时 设置 LS JAVA_OPTS 环 境 变量 。 


需要 修改 ./bin/logstash.lib.sh 中 $JAVA_OPTS 变 量 的 定 


在 ./bin/logstash.lib.sh 第 34 行 JAVA_OPTS= “$JAVA_OPTS-Djava.awt.headless=true” 下 ， 添 加 如 下 几 行 : 


JAVA OPTS="$JAVA OPTS —Dcom.sun.management .jmxremote" 
JAVA_OPTS="$JAVA_OPTS -Dcom.sun.management .jmxremote.port=9010" 

JAVA OPTS="$JAVA OPTS —Dcom.sun.management .jmxremote.local.only=false" 
JAVA OPTS="$JAVA OPTS —Dcom.sun.management . jmxremote.authenticate=false" 
JAVA_OPTS="$JAVA_OPTS -Dcom.sun.management . jmxremote.ssl=false" 


ay 


E/ELogstashik3s, JMXBCEBPATER, 


有 JMX 以 后 ， 我 们 可 以 通过 Jconsole 界 面 查看 ， 也 可 以 通过 Zabbix 等 监控 系统 做 长 期 监控 。 甚 至 Logstash 自 己 也 有 插件 logstash-input-jmx 来 读 取 远程 JMX 数 据 。 下 面 介绍 Zabbix 监 控 方案 。 


Zabbix 监 控 


Zabbix 里 提供 了 专门 针对 JMX 的 监控 项 。 详 见 : https://www.zabbix.com/documentation/2.2/manual/config/items/itemtypes/jmx_monitoring 


注意 ，zabbix-server 本 身 并 不 直接 对 JMX 发 起 请 求 ， 而 是 单独 有 一 个 JavaGateway 作 为 中 间 代 理 层 角色 。zabbix-server 的 java poller 连 接 zabbix-java-gateway， 由 zabbix-java-gateway 去 获取 远程 
JMX 信 息 。 所 以 ， 在 zabbix-web 配 置 之 前 ， 需 要 先 配 置 Zabbix Server 相 关 进 程 和 设置 : 


# yum install zabbix-java-gateway 

# cat >> /etc/zabbix/zabbix-server.conf <<EOF 
JavaGateway=127.0.0.1 

JavaGatewayPort=10052 

StartJavaPollers=5 

EOF 

# /etc/init.d/zabbix-java-gateway restart 

# /etc/init.d/zabbix-server restart 


然后 在 zabbix-web 上 Configuration 页 ， 给 运行 Logstash 的 主机 的 Host 配 置 添加 JMX 接 口 ，Port 即 为 上 面 定义 的 9010 端 口 。 


最 后 添加 ltem，Type 下 拉 框 选择 JMX agent，Key 文 本 框 输入 jmx[“java.lang: type=Memory”，“HeapMemoryUsage.used”]， 保 存 即 可 。 


JMX 有 很 多 Key 可 以 监控 ， 具 体 的 值 ， 可 以 通过 Jconsole 参 看 。 如 图 4-1 所 示 ， 如 果 要 监控 线程 数 ， 就 可 以 写成 Imx[“java.lang: type=Threading” , “ThreadCount” 


e00e Java 监视 和 管理 控制 全 
连接 窗口 ”帮助 
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> @® Runtime a 
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ThreadAllocatedMemoryEnabled originalType int 
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图 4-1 jconsole 


有 了 监控 项 和 数据 ， 后 续 的 Graph、Screen、Trigger 定 义 ， 这 里 就 不 再 讲述 了 ， 有 需要 的 读者 可 以 自行 查找 Zabbix 相 关 资 料 。 


4.2.3 Ap 人 方式 


Logstash 5.0 开 始 ， 提 供 了 输出 自身 进程 的 指标 和 状态 监控 的 AP1， 这 大 大 降低 了 我 们 监控 Logstash 的 难度 。 


目前 API 主 要 有 四 类 : 节点 信息 、 插 件 信息 、 节 点 指标 、 热 线程 统计 。 节 点 信息 (node info) 接口 目前 支持 三 种 类 型 : pipeline、os、jvm。 没 什么 要 讲 的 。 插 件 信息 用 来 列 出 已 安装 插件 的 名 称 和 版 


本 。 节 点 指标 (node stats) 接口 目前 支持 四 种 类 型 的 指标 : events、jvm、process、pipeline。 下 面 分 别 介绍 。 


1.events 


获取 该 指标 的 方式 为 : 


curl -s localhost:9600/_node/stats/events?pretty=true 


是 的 ，Logstash 跟 Elasticsearch 一 样 也 支持 用 ?pretty 参 数 美化 JSON 输 出 。 此 外 ， 还 支持 ?format=yaml 来 输出 YAML 格 式 的 指标 统计 。Logstash 默 认 监听 在 9600 端 | 
修改 ， 通 过 --http.port 命 令 行 参数 ， 或 者 对 应 的 logstash.yml 设 置 修改 。 


该 指标 的 响应 结果 示例 如 下 : 


口 提供 这 些 API 访 问 。 如 果 需 要 


{ 
"events" : { 
"in" : 59685, 
"filtered" : 59685, 
"out" : 685 
} 
i 


2jvm 


获取 该 指标 的 方式 为 : 


curl -s localhost:9600/_node/stats/jvm?pretty=true 


该 指标 的 响应 结果 示例 如 下 : 


"jvm" : { 

"threads" : { 
“count™ 3-32, 
"peak count" : 34 
} 

} 


3.process 


获取 该 指标 的 方式 为 : 


curl -s localhost:9600/_node/stats/process?pretty=true 


该 指标 的 响应 结果 示例 如 下 : 


"process" : { 
"peak open file descriptors" : 64, 
"max file descriptors" : 10240, 
"open file descriptors" : 64, 
nmem" 


"total virtual_in bytes" : 5278068736 
"total in millis" : 103290097000, 
"percent" : 0 


, 
cpu 


目前 beats 家 族 有 个 [logstashbeat] (https://github.com/consulthys/logstashbeat) 项 目 ， 就 是 专门 采集 这 个 数据 的 。 


4.pipeline 
获取 该 指标 的 方式 为 : 


curl -s localhost:9600/_node/stats/pipeline?pretty=true 


该 指标 的 响应 结果 示例 如 下 : 


"pipeline": { 
"events": { 
"duration in millis": 7863504, 
"in": 100, 
"filtered": 100, 
"out": 100 
ty 
"plugins": { 
"inputs": [], 
"filters": [ 
{ 
"id": "grok_20e5cb7£7c9e712ef9750edf 94aefb4 65e3e361b-2", 
"events": { 
"duration in millis": 48, 
vim 100; 
"out": 100 
hr 
"matches": 100, 
"patterns per field": { 
"message": 1 
hy 


"name": "grok" 


"id": "geoip_20e5cb7£7c9e712ef9750edf 94aefb4 65e3e361b-3", 
"events": { 一 

"duration in millis": 141, 

"in": 100, ~ 

"out": 100 


"name": "geoip" 
} 

l; 

"outputs": [ 


"out": 100 


: "elasticsearch" 


] 

"reloads": { 
"last_error": null, 
"successes": 0, 
"last_ success timestamp": null, 
"last failure timestamp": null, 
"failures": 0 


可 以 看 到 它 这 里 显示 了 每 个 插件 的 日 志 处 理 情况 (数量 、 耗 时 等 ) ， 尤 其 是 grok 过 滤器 插件 ， 还 显示 出 了 正则 匹配 失败 的 数量 、 每 个 字段 匹配 的 正则 表达 式 个 数 等 很 有 用 的 排 障 和 性 能 调 优 信息 。 


上 面 的 指标 值 可 能 比较 适合 的 是 长 期 趋势 的 监控 ， 在 排 障 的 时 候 更 需要 即时 的 线程 情况 统计 ， 此 时 线程 统计 就 很 用。 获取 方式 如 下 : 


curl -s localhost:9600/_node/stats/hot threads?human=true 


该 接口 默认 返回 也 是 JSON 格 式 ， 在 看 堆栈 的 时 候 并 不 方便 ， 可 以 用 ? human=true 参 数 来 改 成 文本 换行 的 样式 。 效 果 上 跟 我 们 看 Elasticsearch 的 /_nodes/_local/hot_threads 效 果 就 一 样 了 。 


其 实 节 点 指标 APl 也 有 ? human=true 参 数 ， 其 作用 和 hot threads 不 一 样 ， 是 把 一 些 网 络 字 节 数 、 时 间 等 信息 改 成 人 类 更 易 懂 的 单位 。 


第 5 章 扩展 方案 


之 前 章节 讲述 的 都 是 单个 Logstash 进 程 ， 及 其 对 数据 的 读 取 、 解 析 和 输出 处 理 。 但 是 在 生产 环境 中 ， 从 每 台 应 上 


服务 器 运行 Logstash 进 程 并 将 数据 直接 发 送 到 Elasticsearch 里 ， 显 然 不 是 第 一 选择 ， 原 


因 有 三 : 第 一 ， 过 多 的 客户 端 连接 对 Elasticsearch 是 一 种 额外 的 压力 ;第 二 ， 网 络 拌 动 会 影响 到 Logstash 进 程 ， 进 而 


影响 生产 应 用 ; 第 三 ， 运 维 人 员 未 必 愿 意 在 生产 服务 器 上 部 署 Java， 或 者 让 Logstash 跟 


业务 代码 争夺 Java 资 源 。 所 以 ， 在 实际 运用 中 ，Logstash 进 程 会 被 分 为 两 个 不 同 的 角色 。 运 行 在 应 用 服务 器 上 的 尽量 减轻 运行 压力 ， 只 做 读 取 和 转发 ， 这 个 角色 叫做 Shipper; 运行 在 独立 服务 器 上 的 完成 
数据 解析 处 理 ， 负 责 写 入 Elasticsearch 的 角色 ， 叫 Indexer。 


Logstash 作 为 无 状态 的 软件 ， 配 合 消息 队列 系统 ， 可 以 很 轻松 地 做 到 线性 扩展 。 本 章 首先 会 介绍 最 常见 的 两 个 消息 队列 与 Logstash 的 配合 : Redis 和 kafka。 


此 外 ，Logstash 作 为 一 个 框架 式 的 项 目 ， 并 不 排斥 ， 甚 至 欢迎 与 其 他 类 似 软件 进行 混搭 式 的 运行 。 本 章 随 后 介绍 一 些 其 他 日 志 处 理 框架 以 及 如 何 与 Logstash 共 存 的 方式 。 希 望 大 家 各 取 所 长 ， 做 好 最 适 
合 自己 的 日 志 处 理 系统 ， 这 些 框架 包括 : logstash-forwarder，Logstash 官 方 自己 推出 的 轻 量 级 shipper 方 案 。Rsyslog，RHEL6 默 认 自 带 的 软件 ， 本 章 介绍 最 新 的 Rsyslog v8 版 的 全 新 语法 和 扩展 插件 体 
系 。Nxlog，Windows 平 台 上 最 推荐 的 日 志 收 集 软件 。Heka，Mozilla 公 司 模仿 Logstash 重 写 的 产品 ， 对 Golang 有 偏好 的 读者 不 妨 一 试 。Fluentd， 日 本 最 流行 的 日 志 处 理 系统 ，CRuby 语 言 + 事件 驱动 
库 ， 并 提供 有 针对 各 编程 语言 的 模块 。Message: : Passing，Perl5 社 区 模仿 Logstash 写 的 项 目 ， 基 于 libev 事 件 驱 动 库 ， 同 时 ，Perl5 的 正则 性 能 比 Logstash 也 要 高 4 倍 以 上 。 


5.1 ”通过 Redis 队 列 扩展 


Redis 服 务 器 是 Logstash 官 方 推荐 的 Broker 选 择 。Broker 角 色 也 就 意味 着 会 同时 存在 输入 和 输出 两 个 插件 。 本 书 会 拆 解 Logstash 中 和 Redis 有 关 的 这 两 个 插件 ， 力 图 让 读者 了 解 这 种 扩展 方式 的 实质 ， 做 
到 灵活 的 部 署 和 使 用 。 


5.1.1 读 取 Redis 数 据 


LogStash: : Inputs: : Redis 支 持 三 种 data_type (实际 上 是 redis type) ， 不 同 的 数据 类 型 会 导致 实际 采用 不 同 的 Redis 命 令 操 作 : 


+ list => BLPOP 


+ channel => SUBSCRIBE 


* pattern_channel => PSUBSCRIBE, 


注意 到 了 么 ? 这 里 面 没 有 GET 命 令 ! 


Redis 服 务 器 通常 都 是 用 作 NoSQL 数 据 库 ， 不 过 Logstash 只 是 用 来 做 消息 队列 。 所 以 不 要 担心 Logstash 里 的 Redis 会 撑 爆 你 的 内 存 和 磁盘 。 


1. 配 置 示例 


input { 
redis { 
data_type =>"pattern_channel" 
key =>"logstash-*" ~ 
host =>"192.168.0.2" 
port => 6379 
threads => 5 


2. 命 令 行 验证 


首先 确认 你 设置 的 host 服 务 器 上 已 经 运行 了 redis-server 服 务 ， 然 后 打开 终端 运行 Logstash 进 程 等 待 输入 数据 
面 输入 PUBLISH logstash-demochan “hello world” : 


然后 打开 另 一 个 终端 ， 输 入 redis-cli 命 令 ( 先 安装 好 redis 软 件 包 ) ， 在 交互 式 提示 符 后 


# redis-cli 
127.0.0.1:6379> PUBLISH logstash-demochan "hello world" 


你 会 在 第 一 个 终端 里 看 到 Logstash 进 程 输出 类 似 下 面 这 样 的 内 容 : 


{ 

"message" =>"hello world", 

"@version" =>"1", 

"@timestamp" =>"2014-08-08T16:26:29.3992" 
} 


3. 直 接 输 入 JSON 数 据 


如 果 你 想 通过 Redis 的 频道 给 Logstash 事 件 添加 更 多 字段 ， 直 接 向 频道 发 布 JSJON 字 符 串 就 可 以 了 。LogStash: : Inputs: : Redis 会 直接 把 JSON 转 换 成 事件 。 


继续 在 第 二 个 终端 的 交互 式 提示 符 下 输入 如 下 内 容 : 


127.0.0.1:6379> PUBLISH logstash-chan '{"message":"hello world", "@version":"1","@timestamp":"2014-08-08T16:34:21.8652", "host": "raochenlindeMacBook-Air.local", "keyl":"valuel™"}' 


你 会 看 到 第 一 个 终端 里 的 Logstash 进 程 随 即 也 返回 新 的 内 容 ， 如 下 所 示 : 


{ 

"message" =>"hello world", 

"@version" ale 

"@timestamp" =>"2014-08-09T00:34:21.865+08:00", 
"host" =>"raochenlindeMacBook-Air.local", 
"keyl" =>"valuel" 


} 


看 ， 新 的 字段 出 现 了 ! 现在 ， 你 可 以 要 求 开发 工程 师 直接 向 你 的 Redis 频 道 发 送信 息 好 了 ， 一 切 自 动 搞定 。 


4 输入 建议 


这 里 我 们 建议 的 是 使 用 pattern_channel 作 为 输入 插件 的 data_type 设 置 值 。 因 为 实际 使 用 中 ， 你 的 Redis 频 道 可 能 有 很 多 不 同 的 keys， 一 般 命名 成 logstash-chan-%{type} 这 样 的 形式 。 这 时 候 


pattern_channel 类 型 就 可 以 帮助 你 一 次 订阅 全 部 Logstash 相 关 频 道 ! 


5.1.2 ”采用 list 类 型 扩展 Logstash 


如 上 人 小节 提 到 的 ， 之 前 两 个 使 用 场景 采用 了 同样 的 配置 ， 即 数据 类 型 为 频道 发 布 订阅 方式 。 这 种 方式 在 需要 扩展 Logstash 成 多 节点 集群 的 时 候 ， 会 出 现 一 个 问题 : 通过 频道 发 布 的 一 条 信息 ， 会 被 所 有 
订阅 了 该 频道 的 Logstash 进 程 同时 接收 到 ， 然 后 输出 重复 内 容 ! 


Oez 你 可 以 尝试 再 做 一 次 上 面 的 实验 ， 这 次 在 两 个 终端 同时 启动 logstash-f redis-input.conf 进 程 ， 结 果 会 是 两 个 终端 都 输出 消息 。 


Ht 


这 种 时 候 ， 就 需要 用 list 类 型 。 在 这 种 类 型 下 ， 数 据 输入 到 Redis 服 务 器 上 和 暂 存 ，Logstash 则 连 上 Redis 服 务 器 取 走 (BLPOP 命 令 ， 所 以 只 要 Logstash 不 堵塞 ，Redis 服 务 器 上 也 不 会 有 数据 堆积 
间 ) 数据 。 


1. 配 置 示例 


input { 
redis { 

batch_count => 1 
data_type =>"list" 
key =>"logstash-list" 
host =>"192.168.0.2" 
port => 6379 
threads => 5 


2. 命 令 行 验证 


这 次 我 们 同时 在 两 个 终端 运行 logstash-f redis-input-list.conf 进 程 。 然 后 在 第 三 个 终端 里 启动 redis-cli 命 令 交互 : 


$ redis-cli 
127.0.0.1:6379> RPUSH logstash-list "hello world" 
(integer) 1 


这 时 候 你 可 以 看 到 ， 只 有 一 个 终端 输出 了 结果 。 


连续 RPUSH 几 次 ， 可 以 看 到 两 个 终端 近乎 各 自 输 出 一 半 条 目 。 


3. 批 量 推送 


RPUSH 支 持 batch 方 式 ， 修 改 Logstash 配 置 中 的 batch_count 值 ， 作 为 示例 这 里 只 改 到 2， 实 际 运用 中 可 以 更 大 (事实 上 LogStash: : Outputs: : Redis 对 应 这 点 的 batch_event 配 置 默认 值 就 是 
50) 。 


由 


看 启 Logstash 进 程 后 ，redis-cli 命 令 中 改 成 如 下 发 送 : 


127.0.0.1:6379> RPUSH logstash-list "hello world""hello world""helloworld""hello world""hello world""hello world" 
(integer) 3 


可 以 看 到 ， 两 个 终端 也 各 自 输 出 一 部 分 结果 。 而 你 只 用 了 一 次 RPUSH 命 令 。 


5.1.3 ”输出 到 Redis 


1. 配 置 示例 


input { stdin {} } 
output { 
redis { 
data_type =>"channel" 
key =>"logstash-chan-%{+yyyy.MM.dd}" 


2. 令 行 验证 


我 们 还 是 继续 先 用 redis-cli 命 令 行 来 演示 logstash-output-redis 插 件 的 实质 。 


运行 Logstash 进 程 ， 然 后 另 一 个 终端 启动 redis-cli 命 令 。 输 入 订阅 指定 频道 的 Redis 命 令 ( "SUBSCRIBE logstash-chan-2014.08.08" ) 后 ， 首 先 会 看 到 一 个 订阅 成 功 的 返回 信息 。 如 下 所 示 : 


# vedis-cli 

127.0.0.1:6379> SUBSCRIBE logstash-chan-2014.08.08 

Reading messageshttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... (press Ctrl-C to quit) 
1) "subscribe" 

2) “logstash-chan-2014.08.08" 

3) (integer) 1 


好 ， 在 运行 Logstash 的 终端 里 输入 “hello world” 字 符 串 。 切 换 回 redis-cli 的 终端 ， 你 发 现 已 经 自动 输出 了 一 条 信息 : 


1) "message" 
2) “logstash-chan-2014.08.08" 
3) "{\"message\":\"hello world\", \"@version\":\"1\",\"@timestamp\": \"2014-08-08T16:34:21.8652\", \"host\": \"raochenlindeMacBook-Air.local\"}" 


3.Logstash 架 构 中 的 broker 


上 面 那 条 信息 看 起 来 是 不 是 非常 眼熟 ”这 一 串 字符 其 实 就 是 我 们 在 前 面 5.1.1 节 “ 读 取 Redis 数 据 ”中 使 用 的 那 段 数据 。 


看 ， 这 样 就 把 logstash-output-redis 和 logstash-input-redis 串 联 起 来 了 吧 ! 


事实 上 ， 这 就 是 我 们 使 用 Redis 服 务 器 作为 Logstash 架 构 中 Broker 角 色 的 原理 。 


让 我 们 把 这 两 节 中 不 同 配置 的 Logstash 进 程 分 别 在 两 个 终端 运行 起 来 ， 这 次 不 再 要 运行 redis-cli 命 令 了 。 在 配 有 logstash-output-redis 这 端 输入 “hello world” ， 配 有 logstash-input-redis 的 终端 
上 ， 就 自动 输出 数据 了 ! 


警 用 途 


我 们 还 可 以 用 其 他 程序 来 订阅 redis 频 道 ， 程 序 里 就 可 以 随意 写 其 他 逻辑 了 。 你 可 以 看 看 logstash-output-juggernaut 插 件 的 原理 。 这 个 Juggernaut 就 是 基于 redis 服 务 器 和 socket.io 框 架构 建 的 。 利 
它 Llogstash 可 以 直接 向 webkit 等 支持 socket.io 的 浏览 器 推送 告警 信息 。 


5.2 ”通过 Kafka 队 列 扩展 


Kafka 是 一 个 高 吞吐 量 的 分 布 式 发 布 订阅 日 志 服务 。 目 前 已 经 在 各 大 公司 中 广泛 使 用 。 和 之 前 采用 Redis 做 轻 量 级 消息 队列 不 同 ，Kafka 利 用 磁盘 作 队 列 ， 所 以 也 就 无 所 谓 消息 缓冲 时 的 磁盘 问题 。 此 
外 ， 如 果 公 司 内 部 已 有 Kafka 服 务 在 运行 ，Logstash 也 可 以 快速 接 入 ， 免 去 重复 建设 的 麻烦 。 


如 果 打 算 新 建 Kafka 系 统 的 ， 请 参考 Kafka 官 方 入 门 文档 : http://kafka.apache.org/documentation.html#quickstart 


5.2.1 ” Kafka 基础 概念 


以 下 仅 对 Kafka 相 关 基 本 概念 说 明 : 
“ Topic: 主题 ， 声 明 一 个 主题 ，producer 指 定 该 主题 发 布 消息 ， 订 阅 该 主题 的 consumer 对 该 主题 进行 消费 


“ Partition: 每 个 主题 可 以 分 为 多 个 分 区 ， 每 个 分 区 对 应 磁盘 上 一 个 目录 ， 分 区 可 以 分 布 在 不 同 broker 上 ，producer 在 发 布 消息 时 ， 可 以 通过 指定 partition key 映 射 到 对 应 分 区 ， 然 后 向 该 分 区 发 布 消息 ， 在 
无 partition key 情 况 下 ， 随 机 选取 分 区 ， 一 段 时 间 内 触发 一 次 (比如 10 分 钟 ) ， 这 样 就 保证 了 同一 个 producer 向 同一 个 partition 发 布 的 消息 是 顺序 的 。 


' 消费 者 消费 时 ， 可 以 指定 partition 进 行 消费 ， 也 可 以 使 用 high-level-consumer api， 自 动 进行 负载 均衡 ， 并 将 partition 分 给 consumer， 一 个 pattition 只 能 被 一 个 consumer 进 行 消费 。 


- Consumer: 消费 者 ， 可 以 多 实例 部 署 ， 可 以 批量 拉 取 ， 有 两 类 API 可 供 选择 : 一 个 simpleConsumer， 暴 露 所 有 的 操作 给 用 户 ， 可 以 提交 offset、fetch offset、 指 定 partition fetch message; 另外 一 个 high- 
level-consumer (ZookeeperConsumerConnector) ， 帮 助 用 户 做 基于 partition 自 动 分 配 的 负载 均衡 ， 定 期 提交 offset， 建 立 消费 队列 等 。simple Consumer 相 当 于 手动 挡 ，high-level-consumer 相 当 于 自动 挡 。 


- simpleConsumer: 无 需 像 high-level-consumer 那 样 向 zk 注册 brokerid、owner， 其 至 不 需要 提交 offset 到 zk， 可 以 将 offset 提 交 到 任意 地 方 比如 (MySQL、 本 地 文件 等 ) 。 


“ high-level-consumer: 一 个 进程 中 可 以 启 多 个 消费 线程 ， 一 个 消费 线程 即 是 一 个 consumer， 假 设 A 进程 里 有 2 个 线程 (consumetid 分 别 为 1、2) ，B 进 程 有 2 个 线程 (consumerid 分 别 为 1、2) , topicl 49 


partition 有 5 个 ， 那 么 partition 分 配 是 这 样 的 : 
+ partition1 一 A 进程 consumerid1 
+ partition2 一 A 进程 consumerid1 
"partition3 一 A 进程 consumerid2 


"partition4 一 B 进 程 consumerid1 


+ partition5 一 B 进 程 consumetrid2 


+ Group: High-level-consumer 可 以 声明 group， 每 个 group 可 以 有 多 个 consumer， 每 group 各 自 管理 各 自 的 消费 offset， 各 个 不 同 group 之 间 互 不 关联 影响 。 


由 于 目前 版 本 消费 的 offset、owner、group 都 是 consumer 自 己 通 过 zk 管理 ， 所 以 group 对 于 broker 和 producer 并 不 关心 ， 一 些 监控 工具 需要 通过 group 来 监控 ，simpleComsumer 无 需 声 明 
group。 


Q= 以 上 概念 是 Logstash 的 Kafka 插 件 的 必要 参数 ， 请 理解 阅读 ， 对 后 续 使 用 Kafka 插 件 有 重要 作用 。logstash-kafka-input 插 件 使 用 的 是 High-level-consumer API. 


5.2.2 _ Input 配置 


以 下 配置 可 以 实现 对 kafka 读 取 端 (又 叫 消费 者 ，consumer) 的 基本 使 用 。 读 取 端 更 多 详细 的 配置 请 查看 http://kafka.apache.org/documentation.html#consumerconfigs kafka 官 方 文档 的 消费 者 
部 分 配置 文档 。 


input { 
kafka { 
zk_connect =>"localhost:2181" 
group_id =>"logstash" 
Topics =>["test"] 
codec =>plain 


reset_beginning => false # boolean (optional), default: false 
consumer threads => 5 # number (optional), default: 1 
decorate_events => true # boolean (optional), default: false 


读 取 端的 一 些 比较 有 用 的 配置 项 插件 使 用 的 是 High-level-consumer AP1， 请 结合 上 述 Kafka 基 本 概念 进行 设置 : 


“ group_id: 消费 者 分 组 ， 可 以 通过 组 ID 去 指定 ， 不 同 的 组 之 间 消 费 是 相互 不 受 影响 的 ， 相 互 隔离 。 
topics: 指定 消费 话题 ， 也 是 必 填 项 目 ， 指 定 消 费 某 个 topic， 这 个 其 实 就 是 订阅 某 个 主题 ， 然 后 去 消费 。 


+ reset_beginning: Logstash 启 动 后 从 什么 位 置 开始 读 取 数据 ， 默 认 是 结束 位 置 ， 也 就 是 说 Logstash 进 程 会 以 从 上 次 读 取 结束 时 的 偏 移 量 开始 继续 读 取 ， 如 果 之 前 没有 消费 过 ， 那 么 就 开始 从 头 读 取 。 如 果 
你 是 要 导入 原 有 数据 ， 把 这 个 设 定 改 成 “true”，Logstash 进 程 就 从 头 开始 读 取 。 有 点 类 似 于 less+F。 


“ decorate_events: 在 输出 消息 的 时 候 会 输出 自身 的 信息 包括 : 消费 消息 的 大 小 ，topic 来 源 以 及 consumer 的 group 信 息 。 


“ rebalance_max_retries: 当 有 新 的 consumer (Logstash) 加 入 到 同一 group 时 ， 将 会 reblance， 此 后 将 会 有 pattitions 的 消费 端 迁移 到 新 的 consumer 上 ， 如 果 一 个 consumet 获 得 了 某 个 partition 的 消费 权限 ， 那 么 


它 将 会 向 zookeeper 注 册 ，Partition Owner tegistty 节 点 信息 ， 但 是 有 可 能 此 时 旧 的 consumetr 尚 没有 释放 此 节点 ， 此 值 用 于 控制 ， 注 册 节 点 的 重 试 次 数 。 


' consumer_timeout_ms: 指定 时 间 内 没有 消息 到 达 就 抛 出 异常 ， 一 般 不 需要 改 。 


以 上 是 相对 重要 参数 的 使 用 示例 ， 更 多 参数 可 以 选项 可 以 跟 据 https://github.com/joekiller/logstash-kafka/blob/master/README.md 查 看 input 默 认 参 数 。 


Os 想 要 使 用 多 个 Logstash 进 程 协同 消费 同一 个 topic 的 话 ， 那 么 需要 把 两 个 或 多 个 Logstash 进 程 配 置 成 相同 的 group_id 和 topics， 但 是 前 提 是 要 把 相应 的 topic 分 多 个 pattitions (区 ) ， 多 个 消费 者 消 
费 是 无 法 保证 消息 的 消费 顺序 性 的 。 

这 里 解释 下 ， 为 什么 要 分 多 个 partitions ，kafka 的 消息 模型 是 对 topic 分 区 以 达到 分 布 式 效果 。 每 个 topic 下 的 不 同 的 partitions 只 能 有 一 个 Owner 去 消费 。 所 以 只 有 多 个 分 区 后 才能 启动 多 个 消费 者 ， 对 应 不 
同 的 区 去 消费 。 其 中 协调 消费 部 分 是 由 server 端 协调 而 成 。 不 必 使 用 者 考虑 太 多 。 只 是 消息 的 消费 则 是 无 序 的 。 


总 之 ,保证 消息 的 顺序 ， 那 就 只 用 一 个 partition。kafka 的 每 个 partition 只 能 同时 被 同一 个 group 中 的 一 个 consumer 消 费 。 


5.2.3 ”Output 配 置 


以 下 配置 可 以 实现 对 kafka 写 入 端 (又 叫 生产 者 ，producer) 的 基本 使 用 。 写 入 端 更 多 详细 的 配置 请 查看 http://kafka.apache.org/documentation.html#producerconfigs kafka 官 方 文档 的 生产 者 
部 分 配置 文档 。 


output { 
kafka { 
broker list =>"localhost:9092" 
topic id =>"test" 


compression codec =>"snappy" # string (optional), one of ["none", "gzip", "snappy"], default: "none" 


} 


写 入 端的 一 些 有 用 配置 如 下 所 示 。 


- compression_codec: 消息 的 压缩 模式 ， 默 认 是 none， 可 以 有 gzip 和 snappy (暂时 还 未 测试 开启 压缩 与 不 开启 的 性 能 ， 数 据 传输 大 小 等 对 比 ) o 


“ compressed_topics: 可 以 针对 特定 的 topic 进 行 压缩 ， 设 置 这 个 参数 为 topic， 表 示 此 topic 进 行 压缩 。 
- request_required_acks: 消息 的 确认 模式 。 可 以 设置 为 以 下 几 种 : 
“ 设置 为 0: 生产 者 不 等 待 broker 的 回应 ， 只 管 发 送 .会 有 最 低能 的 延迟 和 最 差 的 保证 性 《在 服务 器 失败 后 会 导致 信息 丢失 ) 
“ 设置 为 1: 生产 者 会 收 到 leadet 的 回应 在 leader 写 入 之 后 。 (在 当前 leader 服 务 器 为 复制 前 失败 可 能 会 导致 信息 丢失 ) 
: 设置 为 一 1: 生产 者 会 收 到 leader 的 回应 在 全 部 拷贝 完成 之 后 。 
“ partitioner_class: 分 区 的 策略 ， 默 认 是 hash 取 模 。 
+ send_buffer_bytes: socket 的 缓存 大 小 设置 ， 其 实 就 是 缓冲 区 的 大 小 。 
此 外 ， 还 有 一 系列 和 消息 模式 相关 的 配置 : 
+ setializer_class: 消息 体 的 系列 化 处 理 类 ， 转 化 为 字 节 流 进行 传输 ， 请 注意 必须 和 下 面 的 key_serializer_class 使 用 相同 的 类 型 。 
“ key_serializer_class: 默认 的 是 与 serializer_class 相 同 。 
“ producer_type: 生产 者 的 消息 发 送 模式 。async 异 步 发 送 ，sync 同 步 发 送 。 
+ queue_buffering max_ms: 异步 模式 下 ， 会 在 设置 的 时 间 缓 存 消 息 ， 并 一 次 性 发 送 。 
* queue_buffering_max_messages: 异步 的 模式 下 ， 最 长 等 待 的 消息 数 。 
+ queue_enqueue_timeout_ms: 异步 模式 下 ， 进 入 队列 的 等 待 时 间 ， 若 是 设置 为 0， 那 么 要 么 进入 队列 ， 要 么 直接 抛弃 。 


+ batch_num_messages : 异步 模式 下 ， 每 次 发 送 的 最 大 消息 数 ， 前 提 是 触发 了 queue_buffering_max_messages A Æ queue_enqueue_timeout_ms 的 限制 。 


以 上 是 相对 重要 参数 的 使 用 示例 ， 更 多 参数 可 以 选项 可 以 跟 据 https://github.com/joekiller/logstash-kafka/blob/master/README.md 查 看 output 默 认 参 数 。 


codec 的 运用 


默认 情况 下 ,插件 是 使 用 son 编 码 来 输入 和 输出 相应 的 消息 ， 消 息 传递 过 程 中 Logstash 默 认 会 为 消息 编码 内 加 入 相应 的 时 间 截 和 hostname 等 信息 。 如 果 不 想 要 以 上 信息 (一 般 做 消息 转发 的 情况 
下 ) ， 可 以 使 用 以 下 配置 ， 例 如 : 


output { 
kafka { 
codec => plain { 
format =>"%{message}" 
} 


作为 Consumer 从 kafka 中 读数 据 ， 如 果 为 非 json 格 式 的 话 需 要 进行 相关 解码 ， 例 如 : 


input { 
kafka { 
zk_connect => "xxx: xxx" 
group_id => "test" 
topics => ["test-topic"] 


codec => "line" 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/. .http: //www.hzcourse.com/resource/readBook?path=/openresources/ 
} 


5.2.4 性 能 


1. 队 列 监控 


其 实 Logstash 的 Kafka 插 件 性 能 并 不 是 很 突出 ， 可 以 通过 使 用 以 下 命令 查看 队列 积压 消费 情况 : 


$/bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --group test 


队列 积压 严重 ， 性 能 跟 不 上 的 情况 下 ， 结 合 实际 服务 器 资源 ， 可 以 适当 增加 topic 的 partition 多 实例 化 Consumer 进 行 消费 处 理 消息 。 
2.input-kafka 的 JSON 序 列 化 性 能 


此 外 ， 跟 logstash-input-syslog 改 在 filter 阶 段 grok 的 优化 手段 类 似 ， 也 可 以 将 logstash-input-kafka 的 默认 JSON 序 列 化 操作 从 codec 阶 段 后 移 到 filter 阶 段 。 如 下 所 示 : 


input { 
kafka { 
codec => plain 
} 


} 
filter { 
json { 
source => "message" 


} 


然后 通过 bin/logstash-w$num_cpus 运 行 ， 利 用 多 核 计算 优势 ， 可 以 获得 大 约 一 倍 左右 的 性 能 提升 。 


3. 其 他 方案 
请 参见 以 下 站 点 内 容 : 
https://github.com/reachkrishnaraj/kafka-elasticsearch-standalone-consumer 


https://github.com/childe/hangout 


5.3 logstash-forwarder 


Redis 已 经 帮 有 我 们 解决 了 很 多 的 问题 ， 而 且 也 很 轻 量 ， 为 什么 我 们 还 需要 logstash-for-warder 呢 ?官方 的 解释 是 : 


Redis provides simple authentication but no transport-layer encryption or 
authorization. This is perfectly fine in trusted environments. However, if 
you're connecting to Redis between datacenters you will probably want to 
use encryption. 


简 而 言 之 : 他 很 好 ， 但 是 他 不 安全 。 


所 以 ， 在 跨 机 房 公 网 环境 中 ， 推 荐 使 用 logstash-forwarder。 


5.3.1 ”Indexer 端 配置 


在 Logstash 作 为 Indexer Server 角 色 的 这 端 ， 我 们 首先 需要 生成 证 书 : 


# cd /etc/pki/tls 
# openssl req -x509 -batch -nodes -days 3650 -newkey rsa:2048 -keyout private/ 
logstash-forwarder.key -out certs/logstash-forwarder.crt 


然后 把 证 书 发 送 到 准备 运行 logstash-forwarder 的 shipper 端 服务 器 上 去 : 


# scp private/logstash-forwarder.key root@target_server_ip:/etc/pki/tls/private 
# scp certs/logstash-forwarder.crt root@target_server_ip:/etc/pki/tls/certs 


然后 创建 Logstash 的 配置 文件 。 监 听 部 分 /etc/logstash/conf.d/02-lumberjack-input.conf， 内 容 如 下 : 


input { 
lumberjack { 
port => 5000 
type =>"anything" 
ssl_certificate =>"/etc/pki/tls/certs/logstash-forwarder.crt" 
ssl_key =>"/etc/pki/tls/private/logstash-forwarder.key" 
} 


以 上 ,我 们 在 Logstash 这 端 已 经 配置 完成 。 运 行 logstash-f/etc/logstash/conf.d/ 即 可 。 


oo lumberjack 是 logstash-forwarder 还 没 用 Golang 重 写 之 前 的 名 字 。 


5.3.2 ”Shipper 端 配置 


我 们 现在 登录 到 需要 传送 log 的 机 器 上 ， 我 们 已 在 之 前 的 步骤 中 发 送 了 Logstash 的 crt 过 来 。 


1.logstash-forwarder 安 装 


首先 ， 我 们 需要 安装 logstash-forwarder 软 件 。 官 方 都 已 经 提供 了 软件 仓库 可 用 。 在 Redhat 机 器 上 只 需要 添加 一 个 /etc/yum.repos.dylogstash-forwarder.repo， 内 容 如 下 : 


[logstash-forwarder] 

name=logstash-forwarder 

baseurl=http: //packages.elasticsearch.org/logstash-forwarder/centos 
gpgcheck=1 

gpgkey=http: //packages .elasticsearch.org/GPG-KEY-elasticsearch 
enabled=1 


然后 运行 安装 命令 即 可 : 


# yum install -y logstash-forwarder 


2.logstash-forwarder 配 置 


logstash-forwarder 的 配置 文件 是 纯 JSON 格 式 。 因 为 其 轻 量 级 的 设计 目的 ， 所 以 可 配置 项 很 少 。 下 面 是 一 个 /etc/logstash-forwarder 配 置 示例 : 


{ 


"network": { 
"servers": [ "10.18.10.2:5000" ], 
"timeout": 15, 
"ssl ca" : "/etc/pki/tls/certs/logstash-forwarder.crt" 
"ssl key": "/etc/pki/tls/private/logstash-forwarder.key" 
] 
"files": [ 
{ 
"paths": [ 
"/var/log/message", 
"/var/1log/secure" 


, 

"fields": { "type": "syslog" } 
} 

] 

} 


我 们 已 完成 了 配置 ， 当 service logstash-forwarder start 之 后 ， 你 就 可 以 在 Kibana 上 看 到 你 的 日 志 了 


3.logstash-forwarder 配 置 说 明 


配置 中 主要 包括 下 面 几 个 选项 。 


“ network.servers: 用 来 指定 远 端 ( 即 logstashindexer 角 色 ) 服务 器 的 IP 地 址 和 端口 。 这 里 可 以 写 数 组 ， 但 是 logstash-forwarder 只 会 随机 选 一 台 作为 对 端 发 送 数据 ， 一 直到 对 端 故障 ， 才 会 重 选 其 他 服务 器 。 
- network.ssl*: 网 络 交 互 中 使 用 的 SSL 证 书 路 径 。 


- files.*.paths: 读 取 的 文件 路 径 。logstash-forwarder 只 支持 两 种 输入 ， 一 种 就 是 示例 中 用 的 文件 方式 ， 和 Logstash 一 样 也 支持 glob 路 径 ， 即 “/var/log/*.log” 这 样 的 写法 ; 一 种 是 标准 输入 ， 写 法 
为 “paths”: [“-”] 


“ files.*.fields: 给 每 条 日 志 添 加 的 固定 字段 ， 相 当 于 Logstash 里 的 add_field 参 数 。 注 意 示 例 中 添加 的 是 type 字 段 。 在 logstash-forwarder 里 添加 的 字段 是 优先 于 LogStash: : Inputs: : Lumberjack 配 置 里 定义 的 
字段 的 。 所 以 ， 在 本 例 中 ， 即 便 你 在 indexer 上 定义 type 为 “anything”。 事 件 的 实际 type 依 然 是 这 里 添加 的 “syslog”。 这 也 意味 着 ， 你 在 indexer 上 如 果 做 后 续 判 断 ， 应 该 是 这 样 : 


filter { 
if [type] == "syslog" { 
grok { 
match => { "message" =>"%{SYSLOGTIMESTAMP: syslog timestamp} %{SYSLOGHOST:syslog_hostname} %{DATA:syslog_program} (?:\[8{POSINT:syslog_pid}\])?: %{GREEDYDATA: syslog_t 
} 


Os 虽然 SSL 是 可 信任 的 ， 但 是 当 hacket 得 到 你 一 台 机 器 上 的 证 书后 ， 他 可 以 畅通 无 阻 ， 建 议 对 每 台 机 器 都 签发 单独 的 证 书 ， 如 果 你 忙 得 过 来 的 话 : ) 


5.3.3 AIX 上 的 logstash-forwarder-java 


在 AlIX 环 境 下 (IBM Power 小 型 机 的 一 种 操作 系统 ) ， 你 无 法 使 用 logstash (因为 IBM JDK 没 有 实现 相关 方法 ) ， 也 无 法 使 用 logstash-forwarder，github 上 有 个 Logstash-forwarder 再 实现 的 项 目 就 
是 解决 这 个 问题 的 : https://github.com/didfet/logstash-forwarder-java, 


该 项 目 配置 和 Logstash-forwarder 基 本 保持 一 致 ， 但 是 注意 有 一 个 坑 是 需要 关注 的 ， 作 者 也 在 他 的 github 上 提 到 了 ， 就 是 : 


the ssl ca parameter points to a java keystore containing the root certificate 
of the server, not a PEM file 


不 熟悉 证 书 相关 体系 的 读者 可 能 不 太 清楚 这 个 意思 ， 换 名 话说， 如 果 你 还 按照 logstash-forwarder 的 配置 方法 配置 shipper 端 ， 那 么 你 将 会 得 到 一 个 诡异 的 java.io.IOException: Invalid keystore 
format 异 常 。 


因为 按照 logstash-forwarder-java 的 作者 设计 ，shipper 端 ss| ca 这 个 域 配 置 的 应 该 是 keystore， 而 不 是 PEM ， 因 此 需要 从 你 生成 的 crt 中 创建 出 keystore (jks) 文件 ,命令 如 下 : 


# keytool -importcert -trustcacerts -file logstash-forwarder.crt -alias ca - 
keystore keystore.jks 


一 个 示例 的 shipper.conf 为 : 
"network": { 
"servers": [ "192.168.1.1:5043"], 


"ssl ca": "/mnt/disk12/logger/logstash/config/keystore.jks" 
b 


[ "/mnt/disk12/logger/logstash/config/2.txt" ], 
{ "type": "sadb" } 


"paths": 
"fields"; 


Server 可 以 配置 多 个 ， 这 样 如 果 一 个 logstash server 连 不 上 可 以 连 下 一 个 。 


其 余 配 置信 息 ， 请 参考 logstash-forwarder， 它 完全 兼容 。 


配置 好 以 后 启动 它 即 可 : 


# java -jar logstash-forwarder—java-0.2.3-SNAPSHOT.jar -quiet -config logforwarder.conf 


注意 ， 该 程序 实际 在 以 下 环境 验证 可 


AIX (6100-04-06-1034) 

java version "1.6.0" 

Java(TM) SE Runtime Environment (build pap6460sr14-20130705 01 (SR14)) 

IBM J9 VM (build 2.4, JRE 1.6.0 IBM J9 2.4 AIX ppc64-64 jvmap6460sr14— 
20130704 155156 (JIT enabled, AOT enabled) 

J9VM - 20130704 155156 

JIT - r9 20130517_38390 

GC - GA24 Java6 SR14 20130704 1138 B155156) 

JCL - 20130618_01 


5.4 Rsyslog 


Rsyslog 是 RHEL6 开 始 的 默认 系统 Syslog 应 用 软件 (当然 ，RHEL 自 带 的 版 本 较 低 ， 实 际 官方 稳定 版 本 已 经 到 v8 了 ) 。 官 网 地 址 : http://www.rsyslog.com 


目前 Rsyslog 本 身 也 支持 多 种 输入 输出 方式 ， 内 部 逻辑 判断 和 模板 处 理 。 其 内 部 架构 如 图 5-1 所 示 。 


541 ”常用 模块 介绍 


不 同 模块 插件 在 rsyslog 流 程 中 发 挥 作 


流程 中 可 以 使 


mmnormalize 组 件 来 完成 数据 的 切 分 (相当 于 logstash-filter-grok 功 能 ) 。 


Rsyslog 从 v7 版 本 开始 带 有 omelasticsearch 揪 件 可 以 直接 写 入 数据 到 Elasticsearch 集 群 ， 配 合 mmnormalize 的 使 
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图 5-1 Rsyslog 架 构 


而 normalize 语 法 说 明 见 : http://www.liblognorm.com/files/manual/index.html? sampleda-tabase.htm 


的 原理 ， 可 以 阅读 : http://www.rsyslog.com/doc/master/configuration/modules/workflow.html, 


示例 见 : http://puppetlabs.com/blog/use-rsyslog-and-elasticsearch-powerful- 


file 


fwd 


gssapi 


mail 


mongodb 9 = 


mysql mh 
zmq3 @MQ 


类 似 的 还 有 mmfields 和 mmjsonparse 组 件 。 注 意 ，mmjsonparse 要 求 被 解析 的 MSG 必须 以 @CEE: 开头 ， 解 析 之 后 的 字符 串 为 JJON。 使 用 示例 
见 : http://blog.sematext.com/2013/05/28/structured-logging-with-rsyslog-and-elasticsearch/, 


此 外 ，Rsyslog 从 v6 版 本 开始 ， 设 计 了 一 套 rainerscript 作 为 配置 中 的 DSL。 利 用 rainerscript 中 的 函数 ， 也 可 以 做 到 一 些 数据 解析 和 远 辑 判断 : 
- tolower 

+ estr 

< cnum 

+ wrap 

+ replace 

+ field 

- re_extract 

- re_match 

+ contains 

+ if-else 

- foreach 

+ lookup 

+ set/reset/unset 


详细 说 明 见 http://www.rsyslog.com/doc/v8-stable/rainerscript/functions.html。 


54.2 与 Logstash 合 作 


虽然 Rsyslog 很 早 就 支持 直接 输出 数据 给 Elasticsearch， 但 如 果 你 使 用 的 是 v8.4 以 下 的 版 本 ， 我 们 这 里 并 不 推荐 这 种 方式 。 因 为 normalize 语 法 还 是 比较 简单 ， 只 支持 时 间 、 字 符 串 、 数 字 、IP 地 址 等 几 
种 。 在 复杂 条 件 下 远 比 不 上 完整 的 正则 引擎 。 


fit 


那么 ， 怎 么 使 用 Rsyslog 作 为 日 志 收 集 和 传输 组 件 ， 来 配合 Logstash 工 作 呢 ? 


如 果 只 是 简单 的 Syslog 数 据 ， 直 接 单个 Logstash 运 行 即 可 ， 配 置 方式 见 本 书 前 面 2.4 节 。 


如 果 你 运行 着 一 个 高 负荷 运行 的 Rsyslog 系 统 ， 每 秒 传输 的 数据 远大 过 单个 Logstash 能 处 理 的 能 力 ， 你 可 以 运行 多 个 Logstash 在 多 个 端口 ， 然 后 让 Rsyslog 做 轮训 转发 (事实 上 ， 单 个 omfwd 本 身 的 转 
发 能 力也 有 限 ， 所 以 推荐 这 种 做 法 ) : 


uleset( name="forwardRuleSet" ) { 
Action ( type="mmsequence" mode="instance" from="0" to="4" var="$.seq" ) 
if $.seq == "0" then { 


action (type="omfwd" Target="127.0.0.1" Port="5140" Protocol="tcp" queue.size= 
"150000" queue.dequeuebatchsize="2000" ) 
} 
if $.seq == "1" then { 
action (type="omfwd" Target="127.0.0.1" Port="5141" Protocol="tcp" queue. 
size="150000" queue.dequeuebatchsize="2000" ) 
} 
if $.seq == "2" then { 
action (type="omfwd" Target="127.0.0.1" Port="5142" Protocol="tcp" 
queue.size="150000" queue.dequeuebatchsize="2000" ) 
} 
if $.seq == "3" then { 
action (type="omfwd" Target="127.0.0.1" Port="5143" Protocol="tcp" 
queue.size="150000" queue.dequeuebatchsize="2000" ) 


如 果 Rsyslog 仅 是 作为 Shipper 角 色 运 行 ， 环 境 中 有 单独 的 消息 队列 可 用 ，Rsyslog 也 有 对 应 的 omkafka、omredis、omzmg 插 件 可 用 。 


5.4.3 Mmexternal 模 块 


如 果 你 使 用 的 是 v8.4 及 以 上 版 本 的 rsyslog， 其 中 有 一 个 新 加 入 的 Mmexternal 模 块 。 该 模块 是 在 v7 的 omprog 模 块 基础 上 发 展 出 来 的 ， 可 以 让 你 使 用 任意 脚本 ， 接 收 标准 输入 ， 自 行 处 理 以 后 再 输出 回 
来 ， 而 Rsyslog 接 收 到 这 个 输出 再 进行 下 一 步 处 理 ， 这 就 解决 了 前 面 提 到 的 “normalize 语 法 太 简单 ”的 问题 ! 


下 面 是 使 用 Rsyslog 的 Mmexternal 和 omelasticsearch 完 成 Nginx 访 问 日 志 直接 解析 存储 的 配置 。 


Rsyslog 配 置 如 下 : 


module (load="imuxsock" SysSock.RateLimit.Interval="0") 
module (load="mmexternal") 
module (load="omelasticsearch") 
template (name="logstash-index" type="list") { 
constant (value="logstash-") property (name="timereported" dateFormat= 
"rfc3339" position.from="1" position.to="4") 
constant (value=".") property (name="timereported" dateFormat="rfc3339" 
position.from="6" position.to="7") 
constant (value=".") property (name="timereported" dateFormat="rfc3339" 
position.from="9" position.to="10") 


template ( name="nginx-log" type="string" string="%msg%\n" ) 
if ( $syslogfacility-text == 'local6' and $programname startswith 'www-access-—' 
and not ($msg contains '/2/remind/unread_count' or $msg contains '/2/ 


remind/group_unread') ) then 


action( type="mmexternal" binary="/usr/local/bin/rsyslog-nginx- 
elasticsearch.py" interface.input="fulljson" forcesingleinstance="on" ) 
action( type="omelasticsearch" 
template="nginx-log" 


server="eshost.example.com" 
bulkmode="0n" 
dynSearchIndex="on' 
searchIndex="logstash-index" 
nginxaccess" 
linkedlist" 

50000" 

queue. dequeuebatchsize="5000" 
queue. dequeueslowdown="100000" 


stop 
} 
其 中 调用 的 Python 脚 本 示例 如 下 (注意 只 是 做 示例 ， 脚 本 中 的 split 功 能 其 实 可 以 用 Rsyslog 的 Mmfields 揪 件 完成 ) : 


#!/usr/bin/pypy 
import sys 
import json 
import datetime 
def nginxLog (data): 
hostname = data['hostname'] 
logline = data['msg'] 
time_local, request, http_user agent, staTus, remote_addr, http_referer, 
request time, body bytes sent, http x forwarded proto, http_x_ 
forwarded_for, http_host, http_cookie, upstream_response_time = 
logline.split('*') 7 ~ > = 
try: 
upstream_response time = float (upstream_response_time) 
except: 
upstream response time = None 
method, uri, verb = request.split(' ') 
arg = {} 
try: 
url_path, url_args = uri.split('?') 
for args in url_args.split('&'): 
k, v = args.split('=') 
arg[k] =v 
except: 
url_path = uri 
# Why %z do not implement? 
ret = { 
"@timestamp": datetime.datetime.strptime (time local, 
+0800] ') .strftime ('SFT%T+0800"'), 
"host": hostname, 


' [Sd/%b/SY : SH: SM: 3S 


"method": method.lstrip('"'), 
url_path, 
url args": arg, 


: verb.rstrip('"'), 

"http_user_agent": http_user_agent, 

"status": int (staTus), 

"remote addr": remote_addr.strip('[]"), 

"http referer http referer, 

"request time": float (request time), 

"body bytes sent": int (body bytes sent), 

"http x forwarded proto": http x forwarded proto, 
"http x forwarded for": http x forwarded for, 
"http host": http host, 

"http cookie": http cookie, 

"upstream response time": upstream response time 


return ret 
def onInit(): 


Do everything that is needed to initialize processing 
Def onReceive (msg) : 
data = json. loads (msg) 
ret = nginxLog (data) 
print json.dumps({'msg': ret}) 
def onExit(): 
Do everything that is needed to finish processing. This is being called 
immediately before exiting. 
# most often, nothing to do here 
onInit () 
keepRunning = 1 
while keepRunning = 1: 
msg = sys.stdin. readline () 
if msg: 
msg = msg[:len(msg) -1] 
onReceive (msg) 
sys.stdout. flush () 
else: 
keepRunning = 0 
onExit () 
sys.stdout. flush () 


注意 输出 的 时 候 ， 顶 层 的 key 是 不 能 变 的 ，msg 还 得 叫 msg， 如 果 是 hostname 还 得 叫 hostname， 等 等 。 否 则 ，Rsyslog 会 当做 处 理 无 效 ， 直 接 传递 原 有 数据 内 容 给 下 一 步 。 


Mmexternal 是 基于 direct mode 的 ， 所 以 如 果 你 发 送 的 数据 量 较 大 时 ，Rsyslog 并 不 会 像 linkedlist mode 那 样 缓冲 在 磁盘 队列 上 ， 而 是 持续 fork 出 新 的 Mmexternal 程 序 ， 几 干 个 进程 后 ， 你 的 服务 器 
就 挂 了 ! ! 所 以 ， 务 必 开 启 forcesingleinstance 选 项 。 


5.5 Nxlog 


其 内 部 支持 使 有 


CC 语言 写 的 一 个 跨 平台 日 志 收集 处 理 软件 。 


Nxlog 是 


Nxlog 的 Windows 安 装 文件 下 载 地 址 见 : http://nxlog.org/system/files/products/files/1/nxlog-ce-2.8.1248.msi 


Nxlog 默 认 配置 文件 位 置 在 : C: \Program Files (x86) \nxlog。 


route ( 绑 定 某 输入 到 


配置 文件 中 有 3 个 关键 设置 ， 分 别 是 : input (日 志 输入 端 ) 、output (日 志 输出 端 ) 、 
假设 我 们 有 两 台 服 务 器 : 
- Logstash 服 务 器 IP 地 址 : 192.168.1.100 


:windows 服 务 器 IP 地 址 : 192.168.1.101 


收集 其 中 的 Windows 事 务 日 志 的 配置 如 下 所 示 。 


1.Logstash 配 置 文件 


体 某 输 


Per 正则 和 语法 来 进行 数据 结构 化 和 逻辑 判断 操作 。 不 过 ， 


最 常用 的 场景 。 是 在 Windows 服 务 器 上 ， 作 为 Logstash 的 替代 品 运 


port => 514 


} 
output { 
elasticsearch { 
host =>"127.0.0.1" 
port =>"9200" 
protocol =>"http" 
} 
} 


2.Nxlog 配 置 文件 


<Input testfile> 
Module im file 
File "C:\\test\\\*. log" 
SavePos TRUE 
</Input> 
<Output out> 
Module om_tc 
Host 192.168.1.100 
Port 514 
</Output> 
<Route 1> 
Path testfile => out 
</Route> 


配置 文件 修改 完毕 后 ， 重 启 服务 即 可 ， 如 图 5-2 所 示 。 
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图 5-2 nxlog 服 务 


5.6 Heka 


Heka 是 Mozilla 公 司 仿照 Logstash 设 计 ， 用 Golang 重 写 的 一 个 开源 项 目 。 同 样 采 用 了 input->decoder- >filter->encoder->output 的 流程 概念 。 其 特点 在 于 ， 在 中 间 的 decoder/filter/encoder 部 
分 ,设计 了 sandbox 概 念 ， 可 以 采用 内 嵌 Lua 脚 本 做 这 一 部 分 的 工作 ， 降 低 了 全 程 使 用 静态 Golang 编 写 的 难度 。 此 外 ， 其 filter 阶 段 还 提供 了 一 些 监控 和 统计 报警 功能 。 


注意 ，Mozilla 员 工 已 经 在 2016 年 中 宣布 放弃 对 heka 项 目的 维护 ， 但 是 社区 依然 坚持 推动 了 部 分 代码 更 新 和 新 版 发 布 。 所 以 本 书 继续 保留 heka 的 使 用 介绍 。 官 网 地 址 
: http://hekad.readthedocs.org/, 


a 


下 面 是 同样 的 处 理 逻 辑 ， 通 过 Syslog 接 收 Nginx 访 问 日 志 ， 解 析 并 存储 进 Elasticsearch ，heka 配 置 文件 如 下 : 


[hekad] 
maxprocs = 48 
[TcpInput] 
address = ":514 


parser_type = "token" 


decoder = "shipped-nginx-decoder" 
[shipped-nginx-decoder] 
type = "MultiDecoder" 
subs = ['RsyslogDecoder', 'nginx-access-decoder'] 
cascade_strategy = "all" 
log_sub_errors = true 
[RsyslogDecoder] 
type = "SandboxDecoder" 
filename = "lua_decoders/rsyslog. lua" 
[RsyslogDecoder.config] 
type = "nginx.access" 
template = '<%pri%>sTIMESTAMP% %HOSTNAME% %syslogtag%%msg 
msg: ::drop-last-1f%\n' 
tz = "Asia/Shanghai" 
[nginx-access-decoder] 
type = "SandboxDecoder" 
filename = "lua _decoders/nginx_access.1lua" 
{nginx-access-decoder.config] 
type = "combined" 
user_agent_transform = true 
log_format = '[$time_local]`$http x up calling line id’"$request"’"$http_user_ 
agent" $staTus* [$remote addr] ‘$http x log uid‘ "S$http_referer"* $request. 
time`$body bytes sent‘$http x forwarded proto’ $http_x forwarded for $request_ 
uid*$http_host *$http_cookie*$upstream_response_time' 
[ESLogstashVOEncoder] ~ = aa 
es_index from timestamp = true 
fields = ["Timestamp", "Payload", "Hostname", "Fields"] 
type_name = "%{Type}" 
[ElasticSearchOutput] 
message_matcher = "Type == 'nginx.access'" 
server = "http://eshost.example.com:9200" 
encoder = "ESLogstashV0Encoder" 
flush_interval = 50 
flush_count = 5000 


:sp-if-no-1st-sp%% 


Heka 目 前 仿照 的 还 是 旧版 本 的 Logstash schema 设 计 ， 所 有 切 分 字段 都 存储 在 @fields 下 。 


经 测试 ， 其 处 


能 跟 开 启 了 多 线程 filters 的 Logstash 进 程 类 似 ， 都 在 每 秒 30000 条 。 


5.7 Fluentd 


Fluentd 是 另 一 个 Ruby 语 言 编 写 的 日 志 收集 系统 。 和 Logstash 不 同 的 是 ，Fluentd 是 基于 MRI 实现 的 ， 并 不 是 利用 多 线程 ， 而 是 利用 事件 驱动 。 


Fluentd 的 开发 和 使 用 者 ， 大 多 集中 在 日 本 。 


5.7.1 ”配置 示例 


Fluentd 受 Scribe 影 响 颇 深 ， 包 括 节点 间 传 输 采 用 磁盘 buffer 来 保证 数据 不 丢失 等 的 设计 ， 也 包括 配置 语法 。 下 面 是 一 段 配置 示例 : 


<source> 
type tail 
read from head true 
path /var/lib/docker/containers/*/*-json.log 
pos_file /var/log/fluentd-docker.pos 
time format %Y-%m-%dTSH:%M:%S 
tag docker.* 
format json 
</source> 
# Using filter to add container IDs to each event 
<filter docker.var.lib.docker.containers.*.*.log> 
type record transformer 
<record> T 
container id ${tag_parts[5]} 
</record> ~ 7 
</filter> 
<match docker.var.lib.docker.containers.*.*.log> 
type copy 
<store> 
# for debug (see /var/log/td-agent.1log) 
type stdout 
</store> 
<store> 
type elasticsearch 
logstash_ format true 
host "#{ENV['ES PORT_9200_TCP_ADDR']}" # dynamically configured to use Docker's 
link feature 


port 9200 
flush_interval 5s 
</store> 
</match> 


注意 ， 虽 然 示例 中 演示 的 是 tail 方 式 。Fluentd 对 应 用 日 志 ， 并 不 推荐 如 此 读 取 。Fluentd 为 各 种 编程 语言 提供 了 客户 端 库 ， 应 用 可 以 直接 加 载 日 志 库 发 送 日 志 。 下 面 是 一 个 PHP 应 用 的 示例 : 


<?php 

require_once _ DIR_.'/src/Fluent/Autoloader.php'; 

use Fluent \Logger\FluentLogger; 

Fluent \Autoloader: : register () ; 

Slogger = new FluentLogger ("unix:///var/run/td-agent/td-agent .sock") ; 
Slogger->post ("fluentd.test.follow", array("from"=>"userA", "to"=>"userB") ); 


Fluentd 使 用 如 下 配置 接收 即 可 : 


<source> 
type unix 
path /var/run/td-agent/td-agent.sock 
</source> 
<match fluentd.test.**> 
type forward 
send timeout 60s 
recover wait 10s 
heartbeat_interval 1s 
phi_threshold 16 
hard_timeout 60s 
<server> 
name myserverl 
host 192.168.1.3 
port 24224 
weight 60 
</server> 
<server> 
name myserver2 
host 192.168.1.4 
port 24224 
weight 60 
</server> 


<secondary> 

type file 

path /var/log/fluent/forward-failed 
</secondary> 
</match> 


5.7.2 ”Fluentd 揪 件 


作为 用 动态 语言 编写 的 软件 ，Fluentd 也 拥有 大 量 插件 。 每 个 插件 都 以 RubyGem 形 式 独立 存在 。 事 实 上 ，Logstash 在 这 方面 就 是 学 习 Fluentd 的 。 安 装 方式 如 下 : 


/usr/sbin/td-agent-gem install fluent-plugin-elasticsearch fluent-plugin-grok parser 


fluentd 揪 件 列表 见 : http://www.fluentd.org/plugins, 


5.8 Message: : Passing 


Message: : Passing 是 一 个 仿照 Logstash 写 的 Perl5 项 目 。 项 目 早期 甚至 就 直接 照 原样 也 叫 “Logstash” 的 名 字 。 


但 实际 上 ，Message: : Passing 内 部 原理 设计 还 是 有 所 偏差 的 。 这 个 项 目 整 个 基于 AnyEvent 事 件 驱 动 开 发 框架 ( 即 著名 的 libev 库 ) 完成 ， 也 要 求 所 有 插件 不 要 采取 阻塞 式 编程 。 所 以 ， 虽然 项 目 开发 
不 太 活跃 ,插件 接口 不 其 完善， 但 是 性 能 方面 却 非常 棒 。 这 也 是 我 从 多 个 Perl 日 志 处 理 框架 中 选择 介绍 这 个 的 原因 。 


Message::Passing 有 比较 全 的 input 和 output 插 件 ， 这 意味 着 它 可 以 通过 多 种 协议 跟 Logstash 混 跑 ， 不 过 filter 插 件 比 较 缺 乏 。 对 等 于 grok 的 插件 叫 Message::Passing::Filter:Regexp (我 写 的 ， 嘿 
嘿 ) 。 下 面 是 一 个 完整 的 配置 示例 : 


use Message::Passing::DSL7 
run_message_server message_chain { 
output stdout => ( 
class =>'STDOUT', 


output elasticsearch => ( 
class =>'ElasticSearch', 
elasticsearch_servers => ['127.0.0.1:9200'l, 

); 

encoder ("encoder", 
class =>'JSON', 
output_to =>'stdout', 
output to =>'es', 

); 

filter regexp => ( 
class =>'Regexp', 
format =>':nginxaccesslog', 
capture => [qw( ts status remotehost url oh responsetime upstreamtime bytes )] 
output_to =>'encoder', 

); 

filter logstash => ( 
class =>'ToLogstash', 
output_to =>'regexp', 

) 

decoder decoder => ( 
class =>'JSON', 
output to =>'logstash', 


); 

input file => ( 
class =>'FileTail', 
output_to =>'decoder', 


t3 


#6% “Logstash 源 码 解析 


本 章 试图 讲解 Logstash 源 码 中 的 关键 点 ， 帮 助 大 家 快速 上 手 开发 自己 的 Logstash 插 件 。 不 过 在 开始 之 前 ， 或 许 要 先 解 释 一 个 问题 : Logstash 和 过 去 很 多 日 志 收 集 系统 比 ， 优 势 就 在 于 其 源码 是 用 Ruby 
写 的 ， 所 以 插件 开发 相当 容易 。 大 多 数 框架 都 用 Java 写 ， 毕 竟 做 大 规模 系统 Java 有 天 生 优 势 。 而 另 一 个 新 生 代 Fluentd 则 是 标准 的 Ruby 产 品 ( 即 Matz ‘s Ruby Interpreter) 。Logstash 为 什么 选用 JRuby 
来 实现 ， 似 乎 有 点 两 头 不 讨好 啊 ? 


乔丹 . 西 塞 曾经 多 次 著 文 聊 过 这 个 问题 。 为 了 避 凑 字数 的 嫌疑 ， 这 里 罗列 他 的 gist 地 址 : 


- “Time sucks” (https://gist.github.com/jordansissel/2929216) 一 文 是 关于 Time 对 象 的 性 能 测试 ， 最 快 的 生成 方法 是 sprintf 方 法 ，MRI 性 能 为 82600 call/sec, JRuby1.6.7 4131000 call/sec， 而 JRuby1.7.0 为 
215000 call/sec。 


+ “Comparing egexp patterns speeds” (https://gist.github.com/jordansissel/1491302) 一 文 是 关于 正则 表达 式 的 性 能 测试 ， 使 用 的 正则 统一 为 (? -mix: C (27: P\\ ‘TI (? : \\.) +) *”) ) ， 结果 
MRI1.9.2 为 530000 matches/sec， 而 JRuby1.6.5 为 690000 matches/sec。 


“Logstash performance under ruby” (https: //gist.github.com/jordansissel/4171039) 一 文 是 关于 Logstash 本 身 数据 流转 性 能 的 测试 ， 使 用 logstash-input-generator 插 件 生成 数据 ，logstash-output-stdout 到 pv 工 


具 记 点 统计 。 结 果 MRI1.9.3 为 4000 events/sec， 而 JRuby1.7.0 为 25000 events/sec。 


可 能 你 已 经 运行 着 Logstash 并 发 现 自己 的 线 上 数据 远 超过 这 个 测试 
电脑 上 完成 的 。 


这 是 因为 乔丹 . 西 塞 在 2013 年 之 前 ， 一 直 是 业余 时 间 开 发 Logstash， 而 且 从 未 用 在 自己 线 上 过 。 所 以 当时 的 很 多 测试 是 在 他 自己 


在 Logstash 得 到 大 家 强烈 关注 后 ， 作 者 发 表 了 “logstash needs full time love” (https://gist.github.com/jordansissel/3088552) ， 表 明了 这 点 并 求 一 份 可 以 让 自己 全 职 开发 Logstash 的 工作 ， 同 
时 列 出 了 1.1.0 版 本 以 后 的 roadmap。 (不 过 事实 证 明 当 时 作者 列 出 来 的 这 些 需 求 其 实 不 紧急 ， 因 为 大 多 数 ， 或 者 说 除了 Kibana 以 外 ， 至 今 依然 没有 ==! ) 


时 间 轴 继续 向 前 推 ， 到 2011 年 ， 你 会 发 现 Logstash 原 先 其 实 也 是 用 MRI1.8.7 写 的 ! 在 grok 模 块 从 C 扩 展 改写 成 FFI 扩 展 后 (https://code.google.com/p/logstash/issues/detail? id=37) ， 才 正式 改 
JRuby。 


切换 语言 的 当时 ， 乔 丹 - 西 塞 发 表 了 “logstash, why jruby? ” (https://gist.github.com/jordansissel/978956) 大 家 可 以 一 读 。 


Logstash 被 Elastic.co 收 购 以 后 ， 逐 渐 转 向 性 能 第 一 而 不 是 灵活 性 第 一 。 从 2.3 版 开始 ， 改 用 纯 Java 实 现 了 Logstash 核 心 代码 ， 仅 通过 JRuby 封 装 出 接口 继续 供 插件 使 


在 目前 的 进展 中 ，Logstash 开 发 组 还 在 继续 努力 ， 试 图 提供 一 个 纯 Java 实 现 的 可 持久 化 的 内 部 队列 ， 进 一 步 加强 Logstash 的 数据 安全 性 。 


这 就 是 开源 软件 的 多 样 性 可 能 。 在 我 们 拭目以待 的 同时 ， 尽 量 了 解 源码 实现 ， 积 极 参与 到 开源 社区 ， 也 是 对 自己 能 力 的 一 种 提升 。 本 章 包 括 Logstash 源 码 中 两 个 键 点 : 1) Pipeline，Logstash 主 流 流 
程 的 称呼 ， 也 是 其 核心 代码 的 所 在 文件 名 ， 本 章 带 你 走 进 Pipeline， 了 解 Logstash 设 计 思 想 。2) Plugins， 介 绍 插件 设计 中 两 个 重要 环节 ，Event 怎 么 来 ， 并 发 怎么 实现 。 


6.1 Pipeline 


在 一 开始 ， 就 介绍 过 ，Logstash 对 日 志 的 处 理 ， 从 Input 到 Output， 就 像 在 Linux 命 令 行 上 的 管道 操作 一 样 。 事 实 上 ， 在 Logstash 中 ， 对 此 有 一 个 专门 的 名 词 ， 叫 Pipeline。 


Pipeline 的 代码 加 载 路 径 如 下 : 


bin/logstash -> logstash-core/lib/logstash/runner.rb -> logstash-core/lib/logstash/agent.rb -> logstash-core/lib/logstash/pipeline.rb 


Logstash 从 2.2 版 开始 对 Pipeline 做 了 大 幅度 的 重 构 ， 目 前 最 新 5.0 版 的 pipeline.rb， 可 以 归纳 成 下 面 这 么 一 段 缩 略 版 的 代码 : 


# 初始 化 阶段 
@config = grammar.parse (configstr) 
code = @config.compile 
eval (code) 
queue = LogStash: :Util: :WrappedSynchronousQueue.new 
@input_queue_client = queue.write_client 
@f£ilter queue client = queue.read_client 
# 启动 指标 计数 器 
@filter_queue_client.set_events_metric() 
@filter_queue_client.set_pipeline_metric() 
# 运行 
LogStash: :Util.set_thread_name("[#{pipeline_id}]-pipeline-manager") 
+ 启动 输入 插件 
@inputs.each do |input| 
input. register 
@input_threads << Thread.new do 
LogStash: :Util::set_thread_name ("[#{pipeline_id}]<#{input.class.config_name}") 
plugin.run(@input_queue) ` = zj 
end 
end 
@outputs.each {|o| o.register } 
@filters.each {|f| f.register } 
max_inflight = batch size * pipeline workers 
pipeline workers.times do |t| 
@worker_threads << Thread.new do 
LogStash: :Util.set_thread_name("[#{pipeline id}]>worker#{t}") 
@f£ilter_queue_client.set_batch_dimensions (batch_size, batch_delay) 
while true 
batch = @filter_queue_client.take_batch 
# 开始 过 滤 
batch.each do |event| 
filter_func (event) .each do lel 
batch.merge (e) 


end 
end 
# 计数 
@filter_queue_client.add_filtered_metrics (batch) 
# 开始 输出 
output_events_map = Hash.new { lh,kl hrkl = [] } 


batch.each do |event| 
output func (event) .each do |output| 
output_events_map [output] .push (event) 
end T ~ 
end 
output_events map.each do |output, events| 
output .multi_receive (events) 


end 
@filter_queue_client.add_output_metrics (batch) 
+ 释放 
@filter_queue_client.close_batch (batch) 
end 
end 
end 
+ 运行 


Qinput threads.each (&:join) 


通过 这 个 缩 略 版 可 以 了 解 到 一 个 关键 信息 ， 对 我 们 理解 Logstash 原 理 是 最 有 用 的 : queue 是 一 个 固定 大 小 为 0 的 多 线程 同步 队列 。filter 和 output 揪 件 则 在 相同 的 pipeline_worker 线 程 中 运行 ， 该 线程 
每 次 批量 获取 数据 ， 也 批量 传递 给 filter 和 output 插 件 。 


由 于 input 到 filter 之 间 有 唯一 的 队列 ， 任 意 一 个 filter 或 者 output 发 生 堵 塞 ， 都 会 一 直 堵塞 到 最 前 端的 接收 。 这 也 是 logstash-input-heartbeat 的 理论 基础 。 


这 个 全 新 的 NG pipeline 是 从 2.2 版 开始 发 布 的 ， 当 时 也 导致 logstash-output-elasticsearch 的 ESClient 数 量 比 过 去 大 幅 增加 ， 对 写 入 Elasticsearch 的 性 能 是 不 利 的 。 随 后 官方 意识 到 这 个 问题 ， 并 大 举 
重 构 了 logstash-output-elasticsearch 的 实现 ， 改 成 了 一 个 整体 连接 池 的 方式 ， 代 码 见 : https://github.com/logstash-plugins/logstash-output- 
elasticsearch/commit/06a47535111881b2bc6c9dbd3908e664e4852476。 相 关 的 新 配置 参数 在 之 前 插件 介绍 中 已 经 讲 过 。 


6.2 Plugins 


din 


有 实 上 ， 它 们 分 布 在 不 同 阶段 的 插件 代码 中 完成 。 


除了 上 节 介绍 的 pipeline，Logstash 中 还 有 几 个 重要 概念 : 事件 (event) 、 插 件 (plugin) 等 。 这 些 显然 在 上 节 讲 解 的 pipeline.rb 中 ， 并 没有 体现 。 
下 面 介绍 这 几 个 概念 是 如 何在 input 插 件 中 实现 的 。 


上 一 节 大 家 可 能 注意 到 了 ， 整 个 Pipeline 非 常 简单 ， 无 非 就 是 一 个 多 线程 的 线程 间 数 据 读 写 。 但 是 ， 之 前 介绍 的 Codec 在 哪里 ?我们 可 以 看 到 Filter 阶 段 的 take_batch 操 作 获取 到 了 Event， 但 是 Event 是 
怎么 进入 @filter_queue_client 读 取 的 那个 queue 里 面 的 呢 ? 这 两 个 问题 ， 并 不 在 Pipeline 中 完成 ， 而 是 Plugin 中 。 


Logstash 从 1.5 开 始 ， 把 各 个 Plugin 拆 分 成 了 单独 的 gem， 主 代码 里 只 留 下 了 几 个 base.rb 类 。 所 以 ， 要 了 解 详细 情况 ， 我 们 需要 阅读 一 个 实际 跑 数据 的 插件 ， 比 如 
vendor/bundle/jruby/1.9/gems/logstash-input-stdin-3.2.0/lib/logstash/inputs/stdin.rb 


可 以 看 到 其 中 最 关键 的 读 取 数据 部 分 代码 如 下 : 


@host = Socket.gethostname 
while !stop? 
if data = stdin_read 
@codec.decode (data) do |Jevent| 
decorate (event) 
event.set("host", @host) if !event.include? ("host") 


queue << event 
end 
end 


这 里 有 两 个 关键 函数 : @codec.decode (line) 和 decorate (event) 。 


@codec 在 stdin.rb 中 默认 为 line， 那 么 我 们 就 继续 看 vendor/bundle/jruby/1.9/gems/logstash-codec-line-3.0.2/lib/logstash/codecs/line.rb? 的 相关 部 分 : 


def register 
require "logstash/util/buftok" 
@buffer = FileWatch: :BufferedTokenizer.new (@delimiter) 
@converter = LogStash: :Util::Charset.new(@charset) 
@converter. logger = @logger 

end 

public 

def decode (data) 
@buffer.extract (data) .each do |line| 

yield LogStash: :Event .new("message" => @converter.convert (line) ) 

end 

end # def decode 


超 简短 。 就 是 在 这 个 @codec.decode (line) 里 ， 生 成 了 LogStash: : Event 对 象 。 那 么 ， 我 们 通过 output{codec=>rubydebug} 看 到 的 除了 message 字 段 以 外 的 那些 数据 ， 又 是 怎么 来 的 呢 ? 


在 5.0 之 前 ,我 们 可 以 通过 lib/logstash/event.rb 看 到 相关 属性 的 定义 和 操作 。5.0 之 后 ，Logstash 为 了 提高 性 能 ， 对 Event 部 分 采用 Java 语 言 进行 了 重 构 ， 现 在 你 在 logstash-core-event- 
java/lib/logstash/event.rb 里 只 能 看 到 通过 JRuby 的 专属 require 指 令 加 载 jar 的 语句 了 。 


想 要 了 解 Logstash: : Event 的 实际 定义 ， 需 要 去 Git 仓 库 下 载 ， 然 后 阅读 Java 源 代码 ， 你 也 可 以 直接 通过 网 页 阅读 ， 地 址 是 : https://github.com/elastic/logstash/blob/master/logstash-core- 


event-java/src/main/java/org/logstash/Eventjava: 


public static final String METADATA = "@metadata"; 


public static final String METADATA BRACKETS = "[" + METADATA + "]"; 

public static final String TIMESTAMP = "@timestamp"; 

public static final String TIMESTAMP FAILURE TAG = "_timestampparsefailure"; 
public static final String TIMESTAMP FAILURE FIELD = " @timestamp"; 


public static final String VERSION = "@version"; 

public static final String VERSION ONE = "1"; 

public Event () T 

{ 
this.metadata = new HashMap<String, Object>(); 
this.data = new HashMap<String, Object>(); 
this.data.put (VERSION, VERSION ONE) ; 
this.cancelled = false; am 
this.timestamp = new Timestamp (); 
this.data.put (TIMESTAMP, this.timestamp) ; 
this.accessors = new Accessors (this.data) ; 
this.metadata_accessors = new Accessors (this.metadata) ; 


现在 就 清楚 了 ， 这 个 特殊 的 @timestamp 是 在 event 对 象 初始 化 的 时 候 加 上 的 ， 其 实现 同样 在 这 个 Java 源 码 中 ， 见 https://github.com/elastic/logstash/blob/master/logstash-core-event- 


java/src/main/java/org/logstash/Timestamp.java : 


public class Timestamp implements Cloneable { 
private DateTime time; 
public Timestamp () { 
this.time = new DateTime (DateTimeZone.UTC) ; 


} 


这 就 是 我 们 看 到 Logstash 生 成 的 事件 总 是 UTC 时 区 时 间 的 原因 。 


至 于 如 果 一 开始 就 传 入 了 @timestamp 数 据 的 处 理 ， 则 是 这 样 : 


public Timestamp (String iso8601) { 
this.time = ISODateTimeFormat .dateTimeParser () .parseDateTime (iso8601) . toDateTime (DateTimeZone.UTC) ; 


public Timestamp (long epoch_milliseconds) { 
this.time = new DateTime (epoch milliseconds, DateTimeZone.UTC) ; 


} 


同样 会 利用 oda 库 做 一 次 解析 ， 还 是 转换 成 UTC 时 区 。 


第 7 章 ”插件 开发 


Logstash-1.4.2 以 后 ， 可 以 通过 --pluginpath 参 数 来 加 载 自己 写 的 插件 。 那 么 ， 播 件 又 该 怎么 写 呢 ? 本 章 就 给 大 家 介绍 这 方面 的 知识 ， 主 要 讲解 内 容 包括 : 插件 格式 ; 插件 的 关键 方法 ， 介 绍 Logstash 
不 同类 型 的 插件 ， 从 各 自 的 基 类 继承 的 各 自 所 需 的 接口 方法 ;插件 打包 ; 插件 示例 : Filter、Input 和 Output 开 发 示例 。 


7.1 插件 格式 


Logstash 不 单 在 配置 文件 上 提供 了 DSL， 在 插件 实现 上 同样 提供 了 DSL。 本 节 介 绍 Logstash 插 件 的 DSL。 


一 个 标准 的 logstash-input 输 入 插件 格式 如 下 : 


require 'logstash/namespace' 
require 'logstash/inputs/base' 
class LogStash::Inputs::MyPlugin < LogStash: : Inputs: :Base 
config name 'myplugin' 
default :codec, "line" 
config :myoption_ key, :validate => :string, :default => 'myoption value' 
public def register z 
end 
public def run (queue) 
end 
end 


其 中 大 多 数 语 句 在 过 滤器 和 输出 阶段 是 共有 的 ， 参 数 说 明 如 下 : 
- config name: 用 来 定义 该 插件 写 在 Logstash 配 置 文件 里 的 名 字 。 
- config: 可 以 定义 很 多 个 ， 即 该 插件 在 Logstash 配 置 文件 中 的 可 配置 参数 。Logstash 很 温 声 的 提供 了 验证 方法 ， 确 保 接收 的 数据 是 你 期 望 的 数据 类 型 。 


- register: Logstash 在 启动 的 时 候 运 行 的 函数 ， 一 些 需 要 常 驻 内 存 的 数据 ， 可 以 在 这 一 步 先 完成 。 比 如 对 象 初始 化 ，logstash-filter-ruby 质 件 中 的 init 语 句 等 。 


7.2 ”插件 的 关键 方法 


上 节 示 例 中 ， 输 入 插件 独 有 的 是 run 方 法 。 在 run 方 法 中 ， 必 须 实现 一 个 长 期 运行 的 程序 (最 简单 的 就 是 loop 指 令 ) 。 然 后 在 每 次 收 到 数据 并 处 理 成 event 之 后 ,一 
输入 流程 就 算是 完成 了 。 


fall 
a 


queue< <event 语 句 。 一 个 


而 如 果 是 过 滤器 插件 ， 对 应 修改 成 : 


require 'logstash/filters/base' 
class LogStash::Filters::MyPlugin < LogStash::Filters: :Base 
config_name 'myplugin' 
public def register 
end 
public def filter (event) 
filter matched (event) 
end = 


Hh, filter matched? 是 在 filter 函 数 完 成 本 插件 自己 的 处 理 逻 辑 之 后 一 定 要 调用 的 。 


如 果 你 需要 批量 处 理 而 不 是 单条 处 理 ， 也 可 以 直接 实现 multi _filter 方 法 而 跳 过 filter 方 法 。 主 要 参照 基 类 中 的 metric 记 录 实 现 。 


此 外 ，filter 类 插件 还 有 一 个 可 选 的 托管 方法 : flush。 如 果 你 需要 在 filter 阶 段 做 一 些 数据 的 整合 处 理 ， 可 以 在 filter 方 法 中 只 负责 做 数据 接 入 ， 而 把 实际 处 理 输出 的 工作 放 在 flush 方 法 完成 。 目 前 的 插件 
中 ，logstash-filter-metric 和 logstash-filter-aggregate 两 个 就 采用 了 这 个 特性 。 可 以 参考 。 


输出 插件 则 是 : 


require 'logstash/outputs/base' 
class LogStash: :Outputs: :MyPlugin < LogStash: :Outputs: :Base 
config_name 'myplugin' 
concurrency :single 
public def register 
end 
public def multi_receive (events) 
end pa 


这 里 和 过 去 版 本 最 明显 的 差别 是 ， 处 理 方法 改 成 了 multi_receive， 而 不 是 receive。 因 为 新 的 pipeline 机 制 是 批量 传递 数据 给 输出 插件 的 。 不 过 为 了 兼容 过 去 的 插件 ，LogSstash: : Outputs: : Base 基 
类 中 的 multi_receive 实 现 继续 迭代 调用 了 receive。 


另 一 个 是 新 出 现 的 配置 concurrency， 代 表 着 本 插件 是 否 threadsafe， 并 由 此 取代 了 过 去 的 workers 选 项 。 可 选项 为 : single 和 shared。 


' single 表 示 本 插件 是 非 线程 安全 的 ， 必 须 在 各 pipeline workers 之 间 同 一 时 刻 只 有 一 个 运行 。 


“ shared 表示 本 插件 是 线程 安全 的 ， 每 个 pipeline workers 之 间 可 以 独立 运行 ， 这 也 就 意味 着 插件 作者 要 自己 在 multi_receive 里 调用 Mutexes。 


推荐 阅读 


«Extending logstash» http://logstash.net/docs/1.4.2/extending/ 


«Plugin Milestones» http://logstash.net/docs/1.4.2/plugin-milestones 


7.4 Filter 揪 件 开发 示例 


前 几 节 详解 了 插件 开发 中 的 一 些 细节 ， 却 有 如 “七 宝 楼 台 ， 眩 人 眼目 ， 碎 拆 下 来 ， 不 成 片段 ”的 感觉 。 下 面 ， 我 们 实际 开发 一 个 自己 的 Logstash 过 滤 插 件 。 


官方 插件 中 ， 有 一 个 叫 logstash-filter-geoip， 也 算是 很 常用 的 一 个 功能 。 不 过 GeolP 库 在 国内 IP 归 属 上 ， 准 确 率 不 到 70%。 此 外 ，GeolP 库 在 格式 上 也 有 缺陷 : 第 一 读 取 性 能 不 够 ， 第 二 无 法 自 定义 数 
据 。 所 以 ，MaxMind 公 司 也 推出 了 新 一 代 的 MaxMindDB 格 式 以 及 对 应 的 GeoLite2.mmdb 免 费 IP 地 址 库 。mmdb 格 式 是 公开 的 ， 可 以 自己 生成 自己 的 IP 数 据 库 ， 同 时 读 取 性 能 比 原 GeolP 高 4~ 6 倍 。 
mmdb 格 式 说 明文 档 见 下 面 链接 : https://github.com/maxmind/MaxMind-DB/blob/master/MaxMind-DB-spec.md 


Logstash 5.0 开 始 ， 官 方 的 logstash-filter-geoip 揪 件 也 改 用 了 GeolP2 地 址 库 。 但 是 其 采用 的 是 Java 版 本 的 GeoiP2 客 户 端 库 ， 固 定 封装 了 GeolP2 的 信息 ， 并 不 能 支持 读 取 其 他 格式 的 mmdb 文 件 。 下 
面 我 们 介绍 一 种 更 灵活 的 mmdb 的 解析 方式 。 


7.4.1 mmdb 数 据 库 的 生成 方法 


MaxMind 官 方 只 提供 了 Perl 版 本 的 mmdb 写 入 库 。 通 过 下 面 命令 安装 : 


# cpanm MaxMind: :DB: :Writer 


假设 你 有 一 个 ipdata.csv 文 件 ， 每 行 记录 的 是 一 个 1P 段 的 开始 IP， 结 束 IP， 归 属国 家 、 省 、 市 、 街 道 、 运 营 商 、 其 他 注释 。 那 么 生成 mmdb 文 件 的 示例 程序 如 下 : 


use MaxMind: :DB: :Writer: :Tree; 
use Net: :Works: :Networ 
my $tree = MaxMind: :DB 


riter: : Tree->new ( 


ip_version 4, 
record_size => 24, 
database_type "MMDB', 


description => { 
en => 'My MaxMindDB', 
ty 
map_key type callback => sub { 'utf8_string' }, 
); 
open my $rfh, "<", "ipdata.csv"; 
while (<$rfh>) { 
chomp; 
my ( $start ip, $end ip, country, $province, $city, $district, $isp, $desc 
) = split /\t/, $7 
my @subnets = Net::Works::Network->range_as subnets ($start ip, $end ip); 
for my $subnet (@subnets) { 4 T a 
$tree->insert_network ($subnet, { 
country => Scountry, 
province => Sprovince, 
city => $city, 
district => $district, 
isp => $isp, 
desc => $desc, 
he 
} 


} 
open my $fh, '>', "ipdata.mmdb"; 
$tree->write tree ($fh); 


7.4.2 LogStash: : Filters: : Mmdb 实 现 


1.mmdb 数 据 库 的 Java 客 户 端 


考虑 到 Logstash 是 欠 uby 实 现 ， 而 这 种 计算 型 的 需求 ， 纯 Ruby 实 现 肯 定 比 不 过 Java。 所 以 我 们 需要 把 IP 地 址 解析 这 段 逻 辑 用 java 搞定 。MaxMind 人 官方 提供 Java 版 本 的 mmdb 文 件 读 取 库 ， 源 代码 地 址 
: https://github.com/maxmind/MaxMind-DB-Reader-java, 


a 


Oze 实测 证 明 ，JRuby 上 使 用 纯 Ruby 实 现 的 mmdb 库 性 能 比 Java 库 差 两 个 数量 级 。 


读 取 mmdb 文 件 进行 IP 地 址 解析 的 Java 代 码 示例 如 下 : 


import java.io.File; 

import java.net. InetAddress; 

import com. fasterxml.jackson.databind.JsonNode; 

import com.maxmind.db.Reader; 

import com.maxmind.db.Reader.FileMode; 

File database = new File ("/path/to/database/GeoIP2-City.mmdb") ; 
Reader reader = new Reader (database, FileMode.MEMORY MAPPED) ; 
InetAddress address = InetAddress.getByName ("24.24.24.24"); 
JsonNode response = reader.get (address) ; 

System. out .Println (response) ; 

reader.close(); 


2. 在 Logstash 插 件 中 实现 的 源码 解析 


把 上 面 的 Java 代 码 迁移 到 Logstash 里 ， 最 后 实际 实现 是 这 个 样子 : 


# encoding: utf-8 
require "logstash/filters/base" 
require "logstash/namespace" 
require "logstash/environment" 
require "logstash-filter-mmdb_jars.rb" 
class LogStash::Filters::MMDB < LogStash::Filters::Base 
config name "mmdb" 
config :database, :validate => :path 
config :source, :validate => :string, :required => true 
config :fields, :validate => :array 
config :target, :validate => :string, :default => 'geoip' 
public 
def register 
require "java" 
import com.maxmind.db.Reader 
import java.net. InetAddress 
if @database.nil? 


@database = ::Dir.glob(::File.join(::File.expand_path ("http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/../ht 
if !File.exists? (@database) 
raise "You must specify 'database => http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/...' in your mmdb f 
end 
end 


@logger.info("Using mmdb database", :path => @database) 
db = java.io.File.new (@database) 
@reader = Reader.new (db) 


end 
public 
def filter (event) 
return unless filter? (event) 
begin 
ip = event [@source] 
ip = ip.first if ip.is_a? Array 
data = @reader.get (NetAddress .getByName (ip) ) 
event [@target] = {} if event[@target] .nil? 
if @fields.empty? 
event [@target] .merge! (LogStash: :Json. load (data.toString) ) 
else 
@fields.each do |f| 
event [@target] [f] = data.get (f) 
end 
end 
end 
filter_matched (event) 
end 
end 


7.4.3 logstash-filter-mmdb#7@ 


打包 使 用 的 gemspec 和 上 一 节 示例 几乎 一 致 ， 需 要 注意 的 是 jar 包 依赖 。 从 Logstash 1.5.1 版 本 开始 ， 官 方 建议 插件 作者 们 通过 直接 分 发 jar 包 的 方式 完成 ， 并 提供 了 统一 的 运行 时 加 载 接口 。 具 体 的 说 ， 
我 们 需要 创建 vendor/jar-dependencies/runtime-jars 目 录 ， 把 我 们 下 载 的 jar 包 ， 包 括 深层 依赖 的 其 他 jar 包 ， 都 放 进去 。 完 成 logstash-filter-mmdb 揪 件 ， 最 终 的 目录 文件 如 下 : 


# ls vendor/jar-dependencies/runtime-jars/commons-codec-1.3.jar commons-logging-1.1.1.jar jackson-annotations-2.4.0.jar jackson-core-2.4.3.jar jackson-databind-2.4.3.jar jsr305 


然后 ， 还 需要 创建 另 一 个 运行 时 依赖 接口 文件 lib/logstash-filter-mmdb _jars.rb， 内 容 如 下 : 


# encoding: utf-8 
require 'logstash/environment' 


ROOT DIR = File.expand_path(File.join(File.dirname(_ FILE_), "http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/..")) 


LogStash: :Environment.load_runtime_jars! File.join(ROOT_DIR, "vendor") 


打包 logstash-filter-mmdb 的 难点 不 止 一 个 ， 我 们 还 有 一 个 GeoLite2-Citymmdb 的 IP 地 址 库 文件 。 也 需要 跟 插 件 一 起 分 发 。 所 以 还 需要 多 加 一 个 vendorjson 文 件 ， 来 定义 分 发 文件 的 下 载 地 址 。 格 式 


如 下 : 


[{"url":"http://geolite.maxmind.com/download/geoip/database/GeoLite2-City.mmdb.gz", "shal":" 3835c98c6444365cd3b3a7769£13e2c9aba6a36a" } ] 


多 个 文件 的 话 ， 数 组 里 同样 格式 写 多 个 元 素 即 可 。 这 样 在 打包 的 时 候 ， 先 运行 rake vendor 命 令 ， 就 会 自动 下 载 文件 供 后 续 使 用 了 。 


7.5 _ Input 插件 开发 示例 


我 们 知道 Linux 系 统 有 些 重要 日 志 不 是 以 可 读 文本 形式 存在 文件 中 ， 而 是 以 二 进 制 内 容 存 放 的 。 比 如 utmp、wtmp、lastlog 等 。 


logstash-input-file 插 件 在 读 取 二 进 制 文 件 和 文本 文件 时 的 区 别 ， 在 于 二 进 制 文 件 没 办 法 一 行 行 处 理 内容 ， 内 容 也 不 是 直观 可 见 的 。 除 此 以 外 ， 其 他 处 理 逻 辑 是 保持 一 致 的 ， 比 如 多 文件 支持 、 断 点 续 


传 、 内 容 监 控 等 。 所 以 ， 我 们 可 以 借鉴 logstash-input-file 的 实现 方式 ， 完 成 自己 的 logstash-input-utmp 插 件 ， 实 现 对 二 进 制 文件 的 读 取 和 解析 ， 得 到 逐 行 输出 的 文本 内 容 ， 供 后 续 filter 阶 段 使 


7.5.1 FileWatch 模 块 原理 


Logstash-input-file 揪 件 使 用 了 FileWatch 模 块 的 Tail 类 来 完成 对 文本 文件 的 读 取 。 仔 细 阅 读 这 个 类 的 源码 实现 ， 发 现 其 中 最 关键 的 几 行 代码 就 是 在 _read file 方 法 中 : 


loop do 
begin 
data = @files[path] .sysread (32768) 
changed = true 
@buffers [path] .extract (data) .each do |line| 
yield(path, line) 
@sincedb[@statcache[path]] += (line.bytesize + delimiter_byte_ size) 
end 
rescue Errno::EWOULDBLOCK, Errno::EINTR, EOFError 
break 
end 
end 


在 这 个 方法 中 ，FileWatch: : Tail 固 定 每 次 读 入 32768 字 节 的 数据 ， 然 后 根据 分 隔 符 (默认 就 是 \n) 转换 成 一 行 行 发 送出 去 ， 同 时 更 新 sincedb 里 的 数据 。 


所 以 ,我 们 只 需要 自己 实现 针对 二 进 制 文件 的 读 取 长 度 定 义 和 内 容 转 换 方 法 即 可 。 下 面 是 具体 实现 ， 我 们 可 以 放 在 logstash-input-utmp/lib/logstash/inputs/binarytail.rb 中 : 


# encoding: utf-8 

require "filewatch/helper" 

require "filewatch/buftok" 

require "filewatch/watch" 

require "filewatch/tail" 

class FixBlockTail < FileWatch::Tail 
def setblocksize (blocksize) 

@blocksize = blocksize 


end 
private 
def read file(path, &block) 
buffers [path] | |= FileWatch: :BufferedTokenizer.new (@opts[:delimiter] ) 
changed = false 
loop do 
begin 


data = @files [path] .sysread (@blocksize) 
changed = true 
yield(path, data) 
@sincedb[@statcache[path]] += @blocksize 
rescue Errno::EWOULDBLOCK, Errno::EINTR, EOFError 
break 
end 
end 
if changed 
now = Time.now.to_i 
delta = now - @sincedb last write 
if delta >= @opts[:sincedb write interval] 
@logger.debug? && @logger.debug ("writing sincedb (delta since last write = #{delta})" 
_sincedb_ write 
@sincedb_last_write = now 
end T = 


end 
end # def read file 
end 


在 类 声明 时 ， 通 过 继承 原 有 的 FileWatch: : Tail 类 ， 我 们 的 新 实现 中 ， 只 需要 修改 read file 方 法， 其 他 的 都 不 用 重新 写 了 。 


7.5.2 Logstash: : Inputs: : Utmp 实 现 


前 面 讲 到 ， 对 二 进 制 文件 ， 最 重要 的 是 读 取 长 度 和 解析 方法 。 对 utmp 文 件 的 二 进 制 结构 ， 我 们 可 以 通过 man utmp 命 令 查看 结构 体 的 类 型 。 在 动态 语言 中 ， 要 解析 二 进 制 结构 体 的 内 容 ， 通 
pack/unpack 指 令 。 比 如 ，utmp 文 件 对 应 的 unpack 指 令 是 : 


ak 


s21a32a4a32a256s2i1214a20 


比如 其 中 第 一 位 是 s 代 表 short， 后 面 的 数字 2 代表 short 元 素 的 个 数 ， 也 就 是 结构 体 的 第 一 个 和 第 二 个 元 素 是 short 类 型 ， 各 占 连 个 两 个 字 节 。 


以 此 类 推 。s2la32a4a32a256s2il214a20 总 共 代表 384 个 字 节 ， 与 struct_size 配 置 保持 一 致 。 其 余 T、a、 旋 至 更 多 指令 含义 参见 Ruby 官 方 的 pack 函 数 说 明 ，http://ruby-doc.org/core- 
1.9.3/Array.html#method-i-pack, 


需要 注意 的 是 ， 你 必须 了 解 你 的 操作 系统 的 字 节 序 是 大 端 模式 还 是 小 端 模式 ， 这 对 于 数字 类 型 的 结构 体 元 素 很 有 必要 ， 比 如 对 于 ij 和 | 的 选择 。 另 一 个 影响 是 结构 体内 存 对 齐 的 问题 ， 实 际 上 utmp 结 构 体 


第 一 个 元 素 是 2 字 节 ， 第 二 个 元 素 是 4 字 节 。 编 译 器 在 编译 的 时 候 会 在 第 一 个 2 字 节 后 插入 2 字 节 来 补 齐 到 4 字 节 ， 知 道 这 点 尤为 重要 。 所 以 其 实 第 二 个 short 是 无 意义 的 ， 只 是 为 了 内 存 对 齐 才 补 的 。 


好 了 ， 现 在 两 个 数据 都 拿 到 了 ， 读 取 长 度 384 字 节 ， 解 析 方式 采用 对 应 的 unpack 指 令 。 为 了 更 加 通用 一 些 ， 比 如 在 Linux 平 台 和 OSX 平 台 上 ，utmp 结 构 体 定义 就 不 一 致 ， 我 们 把 这 两 个 数据 抽象 成 配置 
参数 struct_size 和 struct_format。 最 终 的 LogStash: : Inputs: : Utmp 实 现 如 下 : 


# encoding: utf-8 
require "logstash/inputs/base" 
require "logstash/namespace" 
require "pathname" 
require "socket" # for Socket.gethostname 
require relative "binarytail" 
class LogStash::Inputs::Utmp < LogStash::Inputs::Base 
config_name "utmp" 
default :codec, "plain" 
config :path, :validate => :array, :required => true 
config :exclude, :validate => :array 
config :stat_interval, :validate => :number, :default => 1 
config :discover_interval, :validate => :number, :default => 15 
config :sincedb_path, :validate => :string 
config :sincedb_write_interval, :validate => :number, :default => 15 
config :start_position, :validate => [ "beginning", "end"], :default => "end" 
config :delimiter, :validate => :string, :default => "" 
config :struct_size, :validate => :number, :default => 384 
config :struct_format, :validate => :string, :default =>"s2Ia32a4a32a256s2iI214a20" 
public T 
def register 
require "addressable/uri" 
require "filewatch/tail" 
require "digest/md5" 
@logger.info("Registering utmp input", :path => @path) 
@host = Socket.gethostname.force_encoding (Encoding: :UTF_8) 
@tail_config = { p= 7 
:exclude => @exclude, 
:stat interval => @stat_interval, 
:discover interval => @discover interval, 
:sincedb Write interval => @sincedb_write_interval, 
:delimiter => @delimiter, 
:logger => @logger, 


sincedb dir = ENV["SINCEDB DIR"] || ENV["HOME"] 
@sincedb_path = File.join (sincedb dir, ".sincedb_" + Digest: :MD5.hexdigest (@path.join(","))) 
old_sincedb = File.join(sincedb dir, ".sincedb") 
if File.exists? (old_sincedb) i 
File.rename (old_sincedb, @sincedb_path) 
end 
end 
@tail_config[:sincedb_path] = @sincedb_path 


if @start_position "beginning" 
@tail_config[:start_new files at] = :beginning 
end T 7 z 
end # def register 
public 


def run (queue) 
@tail = FixBlockTail.new (@tail_config) 
@tail.setblocksize (@struct_size) 
@path.each { |path| @tail.tail(path) } 
@tail.subscribe do |path, line| 
event = LogStash: :Event.new 


event.set["[@metadata] [path]"] = path 
event.set["host"] = @host if !event.include? ("host") 
event.set["path"] = path if !event.include? ("path") 
struct = line.unpack (@struct_format) ; 
event.set["message"] = struct.join(" | 


decorate (event) 
queue << event 
end 
finished 
end # def run 
public 
def teardown 
if @tail 
@tail.sincedb_write 
@tail.quit ` 
@tail = nil 
end 
end # def teardown 
end # class LogStash: :Inputs: :Utmp 


AB PRIS SEAWMREAAA AID erat A ics se 


有 实 上 ，register 方 法 完全 等 同 于 logstash-input-file 插 件 的 实现 ， 读 者 可 以 拿 官方 实现 作为 对 比 。 


代码 中 ， 采 用 了 require_relative 指 令 加 载 在 上 一 小 节 我 们 创建 的 binarytail.rb 库 文件 ， 该 指令 与 普通 require 指 令 的 区 别 在 于 : 它 是 在 本 身 所 在 路 径 下 查找 和 加 载 。 


然后 在 run 方 法 中 ， 不 再 使 用 FileWatch: : Tail 类 ， 而 是 我 们 自己 实现 的 FixBlockTail 类 ， 并 加 载 @struct_size 数 据 长 度 参数 。 


最 后 ， 在 LogStash: : Event 生 成 方面 ， 可 以 看 到 跟 6.2 节 内 容 不 太一 样 的 是 ， 一 般 的 Input 插 件 都 会 在 这 时 候 调用 @codec.decode () 方法 来 将 数据 转换 成 对 象 ， 不 过 对 我 们 现在 要 解析 的 utmp 来 
说 ,没有 必要 为 了 一 行 unpack 指 令 ， 再 单独 开发 一 个 logstash-codec-unpack 插 件 来 共同 完成 一 件 事情 了 。 所 以 ， 这 里 直接 把 codec 的 任务 一 并 完成 ， 直 接 初始 化 一 个 LogStash: : Event 对 象 , 将 
unpack 得 到 的 文本 数据 赋值 给 event[“message”] 字 段 。 


所 以 ， 这 个 示例 其 实 是 一 个 融合 了 Input 和 Codec 插 件 的 实现 ， 也 算是 对 第 6 章 原理 前 述 的 实例 展现 。 读 者 可 以 根据 自己 的 实际 场景 需求 ， 来 决定 自己 是 否 单独 拆 分 codec 功 能 到 额外 的 插件 里 。 


7.6 ”Output 揪 件 开发 示例 


consu| 是 一 个 GOSSIP 协 议 的 分 布 式 服务 发 现 和 配置 中 心软 件 。 和 ZooKeeper、etcd 相 比 还 多 了 健康 检查 和 DNS 协议 接口 等 对 运 维 工 程 师 非常 友好 的 功能 ， 所 以 在 微服 务 和 容器 化 浪潮 中 ，consul 成 为 
Docker 生 态 圈 中 最 重要 的 一 环 。 


Tite 


本 节 以 consul 的 key-value 存 储 为 例 ， 演 示 Logstash 的 Output 揪 件 开 发 。 对 
中 ，Output 揪 件 的 数量 也 是 最 多 的 。 


Logstash 二 次 开发 而 言 ，Output 插 件 是 最 简单 的 ， 几 


再 涉及 Logstash 本 身 的 设计 和 规范 ， 所 以 目前 Logstash 社 区 


下 面 是 logstash-output-consul 插 件 的 代码 实现 : 


require "logstash/namespace" 

require "logstash/outputs/base" 

require "logstash/plugin mixins/http_client" 

require “manticore” = ~ 

class LogStash::Outputs::Consul < LogStash: :Outputs: :Base 
include LogStash: :PluginMixins: :HttpClient 
config_name “consul” 
config :consul_ip, :validate => :string, :required => true 
config :consul port, :validate => :number, :required => false, :default => 8500 
config :path, :validate => :string, :required => true 
config :value field, :validate => :string, :required => true 
config :flags, :validate => :string, :required => false 
public 
def register 

@urlpath = "http://#{@consul_ip}:#{@consul_port}/v1/kv/" 


end 
public 
def receive (event) 
return unless output? (event) 
@urlpath += event.sprintf (@path) 
if @flags.size > 1 do 
@urlpath += "?flags="+event.sprintf (@flags) 
end 
client.put (@urlpath, body: event.sprintf (@value_field) ) 


在 这 段 代 码 中 ， 有 两 处 需要 注意 的 用 法 ， 下 面 分 别 讲 解 。 


1.event.sprintf () 函数 


我 们 在 Logstash 配 置 中 使 用 的 那些 字段 引用 字符 串 ， 最 常见 的 就 是 logstash-output-elasticsearch 里 的 index_name 和 filter 揪 件 的 add field， 都 是 通过 这 个 函数 生成 的 结果 。 在 本 例 中 ， 假 设 配置 如 


FB: 
output { 
consul { 
consul_ip => "192.168.0.2" 
path => "/[upstream_addr]/[status]" 
value_field => "requesttime" 
} 
} 
那么 对 下 面 这 条 日 志 : 
{"@timestamp" :"2015-08-20T17:19:202", "upstream addr":” 192.168.0.3","requesttime":0.32, "status":200, "urlpath":"/index.html"} 
最 终 就 会 生成 一 个 下 面 这 样 的 请 求 : 
# curl -XPUT http://192.168.0.2:8500/v1/kv/192.168.0.3/200 -d "0.32" 
当然 ， 实 际 上 不 太 可 能 会 有 需求 把 每 条 日 志 的 响应 时 间 更 新 一 次 Consul。 所 以 ， 该 插件 更 适合 的 场景 是 配合 logstash-filter-metrics 插 件 ， 将 metric 统 计 值 写 入 consul。 
2.logstashVplugin_mixins/http_client 插 件 
这 个 插件 从 路 径 名 里 就 可 以 看 出 来 ， 并 不 是 传统 意义 上 的 数据 处 理 流程 中 的 插件 。 确 切 地 说 ， 这 是 Logstash 开 发 组 为 了 解决 社区 插件 开发 中 ， 滥 用 不 同 HTTP 基 础 库 的 问题 ， 特 意 整理 出 来 的 功能 
件 。 其 底层 采用 了 和 logstash-output-elasticsearch 相 同 的 manticore 库 ， 并 封装 好 了 和 Proxy、SSL 等 高 级 功能 相关 的 config 配 置 。 目 前 ， 官 方 的 logstash-input-http_poller 就 采用 了 这 个 插件 。 


include LogStash: :PluginMixins: :HttpClient 


这 么 一 行 代码 ， 这 个 插件 就 给 你 的 代码 自动 导出 了 client 对 象 ， 并 且 提供 一 系列 和 HttpClient 相 关 的 可 配置 项 。 具 体 参数 见 : 


https: //github.com/logstash-plugins/logstash-mixin-http_client 


第 


pac 


目前 ，Logstash 只 有 两 个 功能 插件 ， 另 一 个 是 logstash-mixin-awsconfig， 如 果 你 打算 开发 一 个 跟 AWS 云 平台 相关 的 插件 ， 可 以 加 载 这 个 功能 插件 ， 自 动 提供 一 系列 和 AWS 相 关 的 可 配置 项 。 


8 章 Beats 


Beats 平 台 是 Elastic.co 从 packetbeat 发 展 出 来 的 数据 收集 器 生态 圈 。 之 所 以 叫 生态 圈 ， 是 因为 Beats 不 是 一 个 单独 软件 ， 而 是 基于 Elastic.co 抽 象 出 来 的 libbeat 库 ， 在 其 上 扩展 出 来 有 filebeat、 
ketbeat、metricbeat、winlogbeat 等 各 种 场景 的 收集 器 。libbeat 提 供 了 统一 的 数据 发 送 方法 、 输 入 配置 解析 、 日 志 记 录 框 架 等 功能 ， 可 以 直接 写 入 Elasticsearch ， 也 可 以 传输 给 Logstash。 本 章 介绍 


libbeat 的 通用 配置 和 参数 ，filebeat、packetbeat、metricbeat、winlogbeat 四 种 收集 器 的 配置 、 参 数 和 输出 结构 等 。 


8.1 


8.1 


libbeat 的 通用 配置 


所 有 的 beat 工 具 ， 在 配置 上 ， 除 了 input 以 外 ， 在 output、filter、shipper、logging、run-options 上 的 配置 规则 都 是 完全 一 致 的 。 


.1 过 滤器 配置 


5.0 版 本 后 ，beats 新 增 了 简单 的 filter 功 能 ， 用 来 完成 事件 过 滤 和 字段 删 减 。 一 个 比较 完整 的 filter 配 置 示例 如 下 : 


filters: 
- drop_event: 
regexp: 
message: "*DBG:" 
- drop fields: 
contains: 
source: "test" 
fields: ["message"] 
- include fields: 
fields: ["http.code", "http.host"] 
equals: 
http.code: 200 
range: 
gte: 
cpu.user_p: 0.5 
it: 
cpu.user_p: 0.8 


可 用 的 条 件 判断 包括 : 


+ equals 


+ contains 
+ regexp 

* range 
“or 

+ and 


* not 


8.1.2 ”输出 配置 


目前 beat 可 以 发 送 数据 给 Elasticsearch、Logstash、File、Kafka、Redis 和 Console 六 种 目的 地 址 。 下 面 分 别 介绍 。 


1.Elasticsearch 


beats 发 送 到 Elasticsearch 也 是 走 HTTP 接 口 ， 示 例 配 置 如 下 : 


output: 
elasticsearch: 

hosts: ["http://localhost:9200", "https://onesslip:9200/path", "anotherip"] 

# 仅 用 于 Elasticsearch 5.0 以 后 的 ingest FA 

parameters: {pipeline: my _pipeline_id} 

username: "user" 

password: "pwd" 

index: "topbeat" 

bulk max size: 20000 

flush interval: 5 

tis: 
certificate_authorities: ["/etc/pki/root/ca.pem"] 
certificate: "/etc/pki/client/cert.pem" 
certificatekey: "/etc/pki/client/cert.key" 


配置 参数 和 logstash-output-elasticsearch 类 似 ， 其 中 最 关键 的 两 项 为 : 
“hosts 中 可 以 通过 URL 的 不 同形 式 来 表示 HTTP 还 是 HTTPS， 是 否 有 添加 代理 层 的 URL 路 径 等 情况 。 
:index 表 示 写 入 Elasticseatch 时 索引 的 前 组 ， 比 如 示例 即 表示 索引 名 为 topbeat-yyyy.MM.dd。 
2.Logstash 


beat 发 送 到 Logstash 的 示例 配置 段 如 下 : 


output: 
logstash: 
hosts: ["localhost:5044", "localhost:5045"] 
worker: 2 
loadbalance: true 
index: topbeat 


这 里 worker 的 含义 是 beat 连 到 每 个 host 的 线程 数 。 在 loadbalance 开 启 的 情况 下 ， 意 味 着 有 4 个 worker 轮 询 发 送 数据 。 


beat 写 入 Logstash 时 ， 会 配合 Logstash-1.5 后 新 增 的 metadata 特 性 。 将 beat 名 和 type 名 记录 在 metadata 里 。 所 以 对 应 的 Logstash 配 置 应 该 是 这 样 : 


input { 
beats { 
port => 5044 
} 
} 
output { 
elasticsearch { 
hosts => ["http://localhost:9200"] 
index => "%{[@metadata] [beat] }-%{+YYYY .MM.gd}" 
document_type => "%{[@metadata] [type] }" 


3.File 


beat 将 数据 写 入 文件 的 示例 配置 段 如 下 : 


output: 
file: 
path: "/tmp/topbeat" 
filename: topbeat 
rotate_every kb: 1000 
number of files: 7 


A.Kafka 


beat 发 送 数据 到 Kafka 的 示例 配置 段 如 下 : 


output: 
kafka: 
hosts: ["kafkal:9092", "kafka2:9092", "kafka3:9092"] 
topic: '%{[type]}' 
topics: 
- key: “info list" 
when: J 
contains: 
message: "INFO" 
- key: "debug_list" 
when: 
contains: 
message: "DEBUG" 
- key: "%{[type]}" 
mapping: 
"http": "frontend list" 
"nginx": d li 
"mysql": 
partition: 


round_robin: 
reachable only: true 
required acks: 1 7 
compression: gzip 
max message bytes: 1000000 


配置 参数 和 logstash-output-kafka 类 似 ， 其 中 最 关键 的 几 项 为 : 
- 大 于 max_message_bytes 长 度 的 事件 (注意 不 只 是 原 日 志 长 度 ) 会 被 直接 丢弃 。 
+ partition 策 略 默 认为 hash， 可 选项 还 有 random 和 round_robin。 
“ compression 可 选项 还 有 none 和 snappy。 
“required_acks 可 选项 有 -1、0 和 1。 分 别 代 表 : 等 待 全 部 副本 完成 、 不 等 待 、 等 待 本 地 完成 。 
:topics 用 来 配置 基于 匹配 规则 的 选择 器 ， 支 持 when 和 mabping，when 条 件 下 可 以 使 用 上 小 节 列 出 的 各 种 filter。 如 果 都 匹配 不 上 ， 则 采用 topic 配 置 。 


5.Redis 


beat 发 送 数 据 到 Redis 的 示例 配置 段 如 下 : 


output: 
redis: 
hosts: ["localhost"] 
password: "my password" 
key: "filebeat" 
db: 0 


timeout: 5 


Redis 输 出 也 有 keys 配 置 ， 方 式 和 Kafka 的 topics 类 似 。 


6.Console 


beat 打 印 数据 到 终端 的 示例 配置 段 如 下 : 


output: 
console: 
pretty: true 


8.1.3 shipper 网 络 配置 


shipper 部 分 是 一 些 和 网 络 拓扑 相关 的 配置 ， 就 目前 来 说 ， 大 多 数 是 packetbeat 独 有 的 。 示 例如 下 : 


shipper: 
name: "my-shipper" 
tags: ["my-service", "hardware", "test"] 


ignore_outgoing: true 
refresh_topology freq: 10 
topology_expire: 15 
geoip: 
paths: 
- "/usr/share/GeoIP/GeoLiteCity.dat" 


这 些 配置 目前 在 Kibana5 中 没有 特别 好 的 可 视 化 方式 。 


8.14 日 志 配置 


beat 比 Logstash 强 的 一 个 地 方 是 ， 有 比较 完备 的 对 自身 运行 状态 的 日 志 记 录 和 配置 项 。 示 例如 下 : 


logging: 

level: warning 

to files; true 

to syslog: false 

files: 
path: /var/log/mybeat 
name: mybeat.log 
keepfiles: 7 


8.15 “运行 配置 


beat 还 可 以 定义 运行 进程 的 属 主 和 属 组 ， 可 以 依照 需求 修改 : 


runoptions: 
uid=501 
gid=501 

8.2 Filebeat 


Filebeat 是 基于 原先 logstash-forwarder 的 源码 改造 出 来 的 。 换 句 话说 ，Filebeat 就 是 新 版 的 logstash-forwarder， 也 会 是 ELKStack 在 shipper 端 的 第 一 选择 。 


8-1 是 Filebeat 的 原理 图 


Prospector 1: Spooler 


/var/log/*.log Elasticsearch 


D 
Harvester 
system.log 


Harvester 


Logstash 


Prospector 2: Kafka 


/var/log/apache2/* 


Harvester 
error.log Redis 


Filebeat 


图 8-1 ”Filebeat 架 构图 


8.2.1 安装 部 署 


因为 Filebeat 是 采集 端 ， 所 以 会 尽 可 能 地 支持 跨 平 台 的 安装 部 署 。Filebeat 采 用 Golang 语 言 编写 ， 所 以 理论 上 只 要 是 Golang 能 支持 的 平台 ，Filebeat 也 都 能 运行 。 目 前 来 说 ， 主 要 操作 系统 中 ， 只 有 
AlX 等 无 能 为 力 。 


为 了 方便 快速 实施 ，Elastic.co 依 然 提供 了 可 以 支持 的 几 大 操作 系统 平台 的 软件 安装 包 。 各 平台 的 安装 命令 或 步骤 如 下 : 


+ deb: 


curl -L -0 https://download.elastic.co/beats/filebeat/filebeat_5.0.0_amd64.deb 
sudo dpkg -i filebeat_5.0.0_amd64.deb 


‘1pm: 


curl -L -O https://download.elastic.co/beats/filebeat/filebeat-5.0.0-x86_64.rpm 
sudo rpm -vi filebeat-5.0.0-x86_64.rpm 


* mac: 


curl -L -O https://download.elastic.co/beats/filebeat/filebeat-5.0.0-darwin.tgz 
tar xzvf filebeat-5.0.0-darwin.tgz 


+ win: 

1) FBéthttps://download.elastic.co/beats/filebeat/filebeat-5.0.0-windows.zip, 
2) 解压 到 C: Program Files, 

3) 重 命名 filebeat-5.0.0-windows 目 录 为 Filebeat。 


4) 右键 点 击 PowerSHell 图 标 ， 选 择 “ 以 管理 员 身份 运行 ”。 


5) 运行 下 列 命令 ， 将 Filebeat 安 装 成 windows 服 务 : 


PS > cd 'C:\Program Files\Filebeat' 


PS C:\Program Files\Filebeat> .\install-service-filebeat.ps1 


Og windows 上 可 能 需要 额外 授予 执行 权限 。 命 令 为 : PowerShell.exe-ExecutionPolicy Remote Signed-File.\install-service-filebeat.ps1。 


8.2.2 配置 


所 有 的 beats 组 件 在 output 方 面 的 配置 都 是 一 致 的 ， 之 前 章节 已 经 介绍 过 。 这 里 只 介绍 filebeat 在 input 段 的 配置 ， 如 下 所 示 : 


filebeat: 
# 最 大 可 以 攒 够 1024 条 数据 一 起 发 送出 去 
spool size: 1024 
+ 否则 每 5 秒 钟 也 得 发 送 一 次 
idle timeout: "5s" 
+ 文 套 读 取 位 置 记录 文件 ， 会 放 在 当前 工作 目录 下 。 所 以 如 果 你 换 一 个 工作 目录 执行 filebeat 会 导致 重复 传输 ! 
registry file: ".filebeat" 
# 如 果 配 置 过 长 ， 可 以 通过 目录 加 载 方式 拆 分 配置 
config dir: "path/to/configs/contains/many/yaml" 
+ 有 相同 配置 参数 的 可 以 归 类 为 一 个 prospector 
prospectors: 
fields: 
# #4 logstash 的 add fields 
ownfield: "mac" 
paths: 
# 指明 读 取 文件 的 位 置 
- /var/log/system.log 
- /var/log/wifi.log 
# 只 发 送 包含 这 些 字样 的 日 志 
include line: ["^ERR", "^WARN"] 
# 不 发 送 包 含 这 些 字 
exclude_lines: ["^OK"] 


# 定义 写 入 ES 时 的 type 值 
document_type: "apache" 
# 超过 24 小 时 没 更 新 内 容 的 文件 不 再 监听 。 在 windows 上 另外 有 一 个 配置 叫 Eforce_close 
files， 只 要 文件 名 一 变化 立刻 关闭 文件 句柄 ， 保 证 文件 可 以 被 删除 ， 缺 陷 是 可 能 会 有 日 志 还 没 读 完 
ignore older: "24h" 
# 每 10 秒 钟 扫 描 一 次 目录 ， 更 新 通配符 匹配 上 的 文件 列表 
scan _ frequency: "10s" 
t 是 否 从 文件 末尾 开始 读 取 
tail files: false 
+ 实际 读 取 文件 时 ， 每 次 读 取 16384 字 节 
harvester buffer size: 16384 
# 每 1 秒 检测 一 次 文件 是 否 有 新 的 一 行内 容 需 要 读 取 
backoff: "1s" 
paths: 
# 可 以 使 用 通配符 
- "/var/log/apache/*" 
exclude files: ["/var/log/apache/error.1log"] 


# 除了 "log", 24 "stdin" 
input_type: "stdin" 
# 多 行 合并 
multiline: 
pattern: '*[[:space:]]' 
negate: false 
match: after 
output: 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


我 们 已 完成 了 配置 ， 当 执 和 


启 命令 sudo service filebeat start 之 后 ， 你 就 可 以 在 Kibana 上 看 到 你 的 日 志 了 。 


8.2.3 ”生成 的 可 用 字段 


Filebeat 发 送 的 日 志 ， 会 包含 以 下 字段 : 

“ beat.hostname beat: 运行 的 主机 名 。 

. beatname shipper: 配置 段 设置 的 name， 如 果 没 设置 ， 等 于 beat hostname。 
* @timestamp: 读 取 到 该 行内 容 的 时 间 。 

‘type: 通过 document type 设 定 的 内 容 。 

“ input_type: 来 自 ljog 还 是 stdin。 

‘source: 具体 的 文件 名 全 路 径 。 

+ offset: 该 行 日 志 的 起 始 偏 移 量 。 

“ message: 日 志 内 容 。 


“ fields: 添加 的 其 他 固定 字段 都 存在 这 个 对 象 里 面 。 


8.3 ”packetbeat 抓 包 分 析 


packetbeat 采 用 libpcap 库 ， 抓 取 网 络 流量 ， 识 别 其 中 的 特定 网 络 协议 ， 自 动 按照 协议 规范 ， 将 网 络 流量 包 划 分 成 事件 字段 ， 写 入 到 Elasticsearch 中 。 


目前 packetbeat 支 持 的 网 络 协议 有 : HTTP、MySQL、PostgreSQL、Redis 和 Thrift。 


对 于 很 多 ELK Stack 新 手 来 说， 面 对 的 很 可 能 就 是 几 种 常用 数据 流 ， 而 书写 Logstash 正 则 是 一 个 耗 时 耗 力 的 重复 劳动 ， 文 件 落 地 本 身 又 是 多 余 操作 ，packetbeat 的 运行 方式 ， 无 疑 是 对 新 手 入 门 极 大 的 


帮助 。 


8.3.1 安装 部 署 


packetbeat 同 样 有 已 经 编译 完成 的 软件 包 可 以 直接 安装 使 用 。 需 要 注意 的 是 ，packetbeat 支 持 不 同 的 抓 包 方式 ， 也 就 有 不 同 的 依赖 。 比 如 最 通 F 


的 pcap， 就 要 求 安 装 libpcap 包 ，pf ring 就 要 求 安装 


pfring 包 。 


# yum install libpcap 

# rpm -ivh http://www.nmon.net/packages/rpm6/x86_64/PF_RING/pfring-6.1.1-83.x86_64.rpm 

# rpm -ivh https://download.elasticsearch.org/beats/packetbeat/packetbeat- 
1.0.0~Betal-x86_64.rpm 


packetbeat 还 附带 了 一 个 定制 的 Elasticsearch 模 板 ， 要 在 正式 使 用 前 导入 Elasticsearch 中 。 


# curl -XPUT 'http://localhost:9200/_template/packetbeat' -d@/etc/packetbeat/ 
packetbeat.template.json 


83.2 ”配置 示例 


通过 RPM 安装 的 packetbeat 配 置 文件 位 于 /etc/packetbeat/packetbeat.yml。 其 基础 示例 如 下 : 


shipper: 
tags: ["web"] 
interfaces: 
device: any 
type: af_packet 
buffer_size mb: 100 


protocols: 
http: 
ports: [80, 8080] 
send_headers: ["User-Agent"] 
real_ip header: "X-Forwarded-For" 
mysql: 
ports: [3306] 
output: 
elasticsearch: 


enabled: true 
host: "192.168.0.2" 


shipper 默 认 会 以 本 机 IP 地 址 作为 name，interfaces 支 持 pcap，af_packet 和 pf ring 三 种 模式 。output 除 了 直接 给 Elasticsearch， 以 外 ， 还 可 以 给 Redis， 再 用 logstash-input-redis 接 收 数据 写 
Elasticsearch, 


output: 

elasticsearch: 
enabled: false 

redis: 
enabled: true 
host: "192.168.0.3" 
port: 6379 
save_topology: true 


然后 Logstash 配 置 如 下 ， 注 意 因 为 packetbeat 自 带 的 template 是 匹配 packetbeat-* 索 引 的 : 


nput { 
redis { 
codec =>"json" 
host =>"192.168.0.3" 
port => 6379 
data_type =>"list" 
key =>"packetbeat" 
} 
f 
output { 
elasticsearch { 
protocol =>"http" 
host =>"127.0.0.1" 
sniffing => true 
manage_template => false 
index =>"packetbeat-%{+YYYY.MM.dd}" 


8.3.3 dashboard 效 果 


针对 packetbeat 自 动 识别 的 不 同 协议 ，packetbeat 还 自 带 了 几 个 预定 义 好 的 Kibana dashboard 方 便 使 用 和 查看 。 包 括 : 


+ Packetbeat Statistics: 针对 HTTP 和 标准 流量 事件 的 性 能 统计 仪表 盘 。 
“ Packetbeat Search: 用 来 搜索 关键 字 的 仪表 盘 。 

- MySQL Performance: MySQL 性 能 分 析 仪 表盘 。 

“ PgSQL Performance: PgSQL 性 能 分 析 仪 表盘 。 


预定 义 仪表 盘 的 导入 方式 如 下 : 


# git clone https://github.com/elastic/packetbeat-dashboards 
# cd packetbeat-dashboards 
# ./load.sh http://192.168.0.2:9200 


MySQL Performance 效 果 如 图 8-2 所 示 。 
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Packetbeat Statistics 效 果 如 图 8-3 所 示 。 


8.3.4 Kibana 3 拓扑 图 


其 实在 Kibana 4 推出 之 前 ，packetbeat 曾 经 自己 fork 了 一 个 Kibana 3 的 分 支 ， 并 在 此 基础 上 二 次 开发 了 一 个 专门 用 来 展示 网 络 拓扑 结构 的 面板 ， 叫 作 force panel。 该 特性 至 今 依然 只 能 运行 在 Kibana 
3 上 。 所 以 ， 需 要 网 络 拓扑 展现 的 用 户 ， 还 得 继续 使 用 Kibana 3。 部 署 方式 如 下 : 


curl -L -0O https://github.com/packetbeat/kibana/releases/download/v3.1.2-pb/ 
kibana-3.1.2-packetbeat.tar.gz 

tar xzvf kibana-3.1.2-packetbeat.tar.gz 

curl -L -0 https://download.elasticsearch.org/beats/packetbeat/packetbeat— 
dashboards-k3-1.0.0~Betal.tar.gz 

tar xzvf packetbeat-dashboards-k3-1.0.0~Betal.tar.gz 

cd packetbeat-dashboards-k3-1.0.0~Betal/ 

# ./load.sh 192.169.0.2 
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force panel 示 例如 图 8-4 所 示 。 注 意 ，force panel 用 到 的 数据 ， 其 实质 是 对 各 来 源 IP 分 别 请 求 目的 P， 对 Elasticsearch 的 计算 量 要 求 较 大 ， 并 不 适合 在 高 流量 、 高 负载 的 条 件 下 使 用 。 


图 8-4 Kibana 3 拓扑 图 


Qbana 分 支 


pfring 抓 包 模 式 的 原 厂 (ntop 公 司 ) 也 有 类 似 packetbeat 的 计划 。ntopng/nProbe 除 了 储存 到 SQLite 以 外 ， 也 开始 支持 存储 到 Elasticsearch 中 。 不 过 它们 推荐 采用 的 是 dashboard， 它 是 Kibana 3 的 
另 一 个 fork 分 支 ， 叫 作 Qbana， 效 果 见 图 8-5。 


有 兴趣 的 读者 可 以 参考 ntop 官 方 文档 : 
http://www.ntop.org/ntopng/exploring-your-traffic-using-ntopng-with-elasticsearchkibana/, 


Qbana 作 者 现 已 加 盟 SIREn.Solutions 公 司 ， 相 信 SIREn 开 源 的 kibi (Kibana5 的 一 个 fork 分 支 ) 未 来 在 网 络 拓扑 可 视 化 方面 也 会 有 所 发 力 。 


84 metricbeat 


使 用 beat 监 控 服 务 性 能 指标 是 ELK Stack 一 个 常见 的 使 用 场景 。2.x 时 代 要 求 用户 对 每 类 常见 都 需要 单独 开发 自己 的 xxxbeat 工 具 ， 然 后 各 自 编译 使 用 。 于 是 Elastic.co 公 司 最 终 干 脆 把 这 件 事 情 统一 成 了 


metricbeat, 


目前 metricbeat 支 持 以 下 服务 性 能 指标 : 
- PostgreSQL 

- Redis 

+ System 

* Zookeeper 

+ Apache 

- HAProxy 

< MongoDB 

- MySQL 


* Nginx 
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图 8-5”Qbana 效 果 


8.4.1 配置 示例 


metricbeat .modules: 
- module: system 
metricsets: 
- cpu 
- filesystem 
— memory 
- network 
— process 
enabled: true 
period: 10s 
processes: ['.*'] 
cpu_ticks: false 
- module: apache 
metricsets: ["status"] 
enabled: true 
period: 1s 
hosts: ["http://127.0.0.1"] 


84.2 ”各 模块 输出 指标 示例 


1.Apache 


Apache 模 块 支持 2.2.31 以 上 的 2.2 系 列 ， 或 2.4.16 以 上 的 2.4 系 列 版 本 。 


使 用 该 模块 要 求 被 监控 的 Apache 服 务 器 上 安装 配置 有 mod _status 扩 展 。 通 过 该 扩展 可 以 监控 到 的 status 数 据 示 例如 下 : 


"apache": { 

"status": { 
"bytes per request": 1024, 
"bytes per sec": 0.201113, 
"connections": { 

"async": { 
"closing": 
"keep alive 
"writing": 0 


= Q, 


hy 
"total": 0 

tr 

"epu": { 
"children system": 0, 
"children user": 0, 
"load": 0.00652482, 

: 1.46, 


tr 

"hostname": "apache", 

"load": { 
WU 3 0: 555 
"15": 0.31, 
SYS 0.31 

hy 

"requests per sec": 0.000196399, 

"scoreboard": { 
"closing_connection": 0, 
"dns lookup": 0, 
"gracefully finishing": 0, 
"idle cleanup": 
"keepalive": 
"logging": 
"open slot": 325, 
"reading request": 0, 
"sending reply": 
"starting up": 0, 
"total": 400, 
"waiting_for_connection": 74 


ty 
"total_accesses" 
"total_kbytes": 9, 
"uptime": { 
"server uptime": 45825, 
"uptime": 45825 


9, 


] 


"workers": 
"husy": 1; 
"idle": 74 


模块 中 还 携带 有 一 个 预定 义 好 的 Kibana 仪 表盘 ， 效 果 如 下 图 8-6 所 示 。 


2.HAProxy 


HAProxy 模 块 支持 HAProxy 服 务 器 1.6 版 本 。 


使 用 该 模块 要 求 在 HAProxy 服 务 器 配置 的 global 或 default 区 域 写 有 如 下 配置 : 


stats socket 127.0.0.1:14567 


模块 可 以 采集 两 类 信息 : info 和 stat。 


其 中 info 的 返回 数据 示例 如 下 : 
"haproxy": { 
"info": { 


"compress bps in": 0, 
"compress bps out": 0, 
"compress bps rate limit": 0, 
"conn rate": 0, 

"conn rate limit": 0, 

"cum conns™: 67, 

"cum req": 67, 
"cum ssl conns": 0, 

nogrr conns”: 0, 
“curr_ssl_conns": 0, 
"hard max conn": 4000, 
y 100, 

: 4000, 
"max conn rate": 5, 
"max pipes": 0, 


"max_sess rate": 5, 
"max_sock": 8033, 
"max_ssl_conns": 0, 
"max_ssl_rate": 0, 

"max zlib mem usage": 0, 
"mem max mb": 0, 

"nb proc": 1, 


, 
1, 


"run queue": 2, 

"sess rate": 0, 
"sess rate limit": 0, 

"ssl babckend_key rate": 0, 


"ssl backend max key rate": 0, 
"ssl_cache misse: 0, 

"ssl cached_lookups": 0, 

"ssl frontend_key rate": 0, 
"ssl frontend max key rate": 0, 
"ssl frontend_session_reuse_pct": 0, 
"ssl rate": 0, 

"ssl rate limit": 0, 

"tasks": 7, 

"ulimit_n": 8033, 

"uptime sec": 13700, 
"zlib mem usage": 0 


b 


Apache HTTPD - Hostname list Apache HTTPD - Uptime Apache HTTPD - Total accesses and kbytes 


Apache HTTD Hostname ¢Q 


aes 4,952,112,640 
769,080 0 mm 
wm men 89,147,669 


Total accesses 
Apache HTTPD - Workers 


© Onay workers 
@ ihe workers 


@umestamp per minute 


Apache HTTPD - Scoreboard 


© @Ciosing commecton 
@ ONS poep 
© Gracotly finishang 
@ ide cleanup 
Or 
@ Logging 
© Open slot 
@hesding request 
O Sending reply 
suning 
@ Tous! 
O wong for conection 


@bmestamp per minute 


Apache HTTPD - Load 1/5/15 Apache HTTPD - CPU 


CPU loos 
CPU ser 

@CPU system 

© CPU haeren user 

© CPU chitgron system 


图 8-6 apache metricbeat 仪 表盘 


stat 的 返回 数据 示例 如 下 : 
"haproxy" : 
“stat: { 
"act": 1, 
"bck": 0, 
"bin": 0, 
"bout": 0, 


“check duration": 0, 
"check status": "L4CON", 
"chkdown": 1, 
"chkfail": 1, 

"cli abrt": 0, 

“ctime": 0, 

"downtime": 13700, 
"dresp": 0, 

"econ": 0, 

"eresp": 0, 

"hanafail 


"hrsp_5xx' 
"hrsp other": 0, 
"iid"? 3, 
"last_chk" 
"lastchg" 
"lastsess 
"lbtot": 0, 
"pid": 1, 


"Connection refused", 
13700, 


rate": 0, 


"wretr": 0 


对 这 些 stat 数 据 名 称 有 疑惑 的 ， 可 以 查阅 http://www.haproxy.org/download/1.6/doc/mana-gement.txt 文 档 。 
3.MongoDB 


该 模块 支持 MongoDB 2.8 及 以 上 版 本 。 


"mongodb": { 
"status": { 
"asserts": { 
"msg": 0, 
"regular": 0, 
"rollovers 0, 
"user": 0, 


"warning": 0 

hy 

"background flushing": { 
"average": { "ms": 16 }, 
"flushes": 37, 
"last": { "ms": 18 }, 
"last finished": "2016-09-06T07:32:58.2282", 
"total": { "ms": 624 } 

] 

"connections": { 
"available": 838859, 
"current": 1, 
"total_created": 10 

tr 

"extra_info": { 
"heap usage": { "bytes": 62895448 }, 
"page faults": 71 

ty 

"journaling": { 
"commits": 1, 
"commits in write lock": 0, 
"compression": 0, 
"early commits": 0, 


"journaled": { "mb": 0 }, 
"times": { 
"commits": { "ms": 0 }, 
"commits in write lock": { "ms": 0 }, 
wat": { "ms": 0 3, 
"prep_log buffer": { "ms": 0 }, 


"remap _private_view": 
"write to data files": 
"write to journal": { "ms": 0 } 


] 
"write to data files": { "mb": 0} 
tr 
"local_time": "2016-09-06T07:33:15.5462", 


"bits": 64, 

"mapped": { "mb": 80 }, 
"mapped with journal": { "mb": 160 }, 
"resident": { "mb": 57 }, 

"virtual": { "mb": 356 } 


] 
"network": { 
"in"; { "bytes": 2258 }, 
"out": { "bytes": 93486 }, 
"requests": 39 


hy 

"opcounters": { 
"command": 40, 
"delete": 0, 
"getmore": 0, 
"insert": 0, 
"query": 1, 
"update": 0 


hy 

"opcounters replicated": { 
"command": 0, 
"delete": 0, 


ty 

"storage _ engini { "name": "mmapv1" }, 
"uptime"; { "ms": 45828938 }, 
"version": "3.0.12", 
"write backs queued": false 


4.MySQL 


该 模块 支持 MySQL 5.7.0 及 以 上 版 本 : 


"mysql": { 
"status": { 

"aborted": { 
"clients": 13, 
"connects": 16 

ty 

"binlog": { 

"cache": { 

"disk use": 0, 
"use": 0 

} 

ty 

"bytes": { 
"received": 2100, 
"sent": 92281 

] 

"connections": 33, 

"created": { 

"tmp": 
"disk_tables": 0, 
"files": 6, 
"tables": 0 

} 

ty 

"delayed": { 


"errors": 0, 
"insert threads": 0, 
"writes": 0 

Fa 

"flush_commands": 1, 

"max used_connections": 2; 


"open": { 
"files": 14, 
"streams": 0, 
"tables": 106 


ty 
"opened tables": 113 


5.Nginx 


该 模块 支持 Nginx 1.9 及 以 上 版 本 。 并 要 求 安装 有 mod _stub_status 模 块 。 


"nginx": { 
"stubstatus": { 
"accepts": 22, 
"active": 1, 
"current": 10, 


"dropped": 0, 
"handled": 22, 
"hostname": "nginx", 


"reading": 0, 
"requests": 10, 
"waiting": 0, 
"writing": 1 


如 果 有 在 使 用 ngx_vts_module 等 其 他 第 三 方 的 Nginx 监 控 模 块 的 ， 可 以 参考 社区 的 nginxbeat 扩 展 ， 或 者 使 用 logstash-input-http_poller 模 块 来 进行 详细 的 监控 。 


6.PostgreSQL 


该 模块 支持 PostgreSQL 9 及 以 上 版 本 。 可 以 采集 activity、bgwriter 和 database 三 类 数据 。 


activity 示 例 数据 如 下 : 


"postgresql": { 
"activity": { 
"application name 
"backend start": 
"client": { 
"address": "172.17.0.14", 
"hostname": "", 
"port": 57436 


2016-09-06T07 333:18.3232", 


ty 
"database": { 
"postgres", 


"oid": 12379 


ty 
"pid": 162, 

"query": "SELECT * FROM pg stat_activity", 
"query start": "2016-09-06T07:33:18.3252", 
"State": "active", 

"state change": "2016-09-06T07:33:18.3252", 
"transaction start": "2016-09-06T07:33:18.3252", 


"name": "postgres" 
ty 
"waiting": false 


i 


bgwriter 示 例 数据 如 下 : 


"bgwriter": { 

"buffers": { 
"allocated": 191, 
"backend": 0, 
"backend _fsync": 0, 
"checkpoints": 0, 
"clean": 0, 
"clean full": 0 

ty 

"checkpoints": { 
"requested": 0, 
"scheduled": 7, 


"times": { 
"sync" 

"ms 0 
ty 
"write": { 

"ms": 0 
} 

} 


"stats reset": "2016-09-05T18:49:53.5752" 
ty 


database 示 例 数据 如 下 : 


"conflicts": 0, 
"deadlocks": 0, 
"name": "templatel", 
"number of backends": 0, 
"oid": 1; 
"rows": { 

"deleted": 0, 


i, 


7.Redis 


该 模块 支持 Redis 3 及 以 上 版 本 。 可 以 采集 info 和 keyspace 两 类 数据 。 


info 示 例 数据 如 下 (部 分 系统 状态 指标 有 省 略 ) : 


"redis": 


"clients": { 
"biggest input buf": 0, 
"blocked": 0, 
"connected": 2, 
"longest_output_list": 0 
tr 
"cluster": { 
"enabled": false 


hy 
"server": { = }, 
"persistence": { 
"aot": { 
"bgrewrite": { "last_status": "ok" }, 
"enabled": false, 
"rewrite": { 
"current_time": { "sec": -L }, 
"in progress": false, 
"last time": { "sec": -1 }, 


"scheduled": false 
] 
"write": { "last_status": "ok" } 
] 
"loading": false, 
"rdb": { 
"bgsave": { 
"current_time": { "sec": -1 }, 
"in progress": false, 
"last_status": "ok", 
"last time": { "sec": -1 } 


tr 
"last save": { 
"changes since": 2, 


"time": 1475698251 


} 
tr 
"replication": { 
"backlog": { 
"active": 0, 
"first byte offset": 0, 
"histlen": 0, 
"size": 1048576 
f; 
"connected slaves": 0, 
"master_offset": 0, 
"role": "master" 


"stats": { 
"commands processed": 70, 
"connections": 

"received 


"instantaneous": { 


0.07, 


"output_kbps": 0.07 


"keys": { 
"evicted": 0, 
"expired": 0 

ty 

"keyspace": { 
hits": 0, 
"misses": 0 


] 
"latest fork usec": 0, 
"migrate_cached_sockets": 0, 
net": { 
{ "bytes": 1949 }, 
{ "bytes": 4956554 } 


"pubsub": { 
"channels": 0, 
"patterns": 


Wall's Q; 
"partial": { 
err": 0, 


b 


keyspace 示 例 数据 如 下 : 


"keyspace": { 
"avg ttl": 0, 
"expires": 0, 
"Gd": "dbo", 
"keys": 1 


8.System 


System 模块 就 是 过 去 2.x 版 本 时 候 的 TopBeat， 可 以 采集 core、cpu、diskio、filesystem、fsstat、load、memory、network 和 process 指 标 。 这 都 是 运 维 人 员 最 熟悉 的 部 分 ， 就 不 再 单独 贴 指标 名 称 
和 示例 了 。 


模块 统一 自 带 有 一 个 预定 义 仪表 盘 ， 示 例如 图 8-7 所 示 。 
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图 8-7 system metricbeat 仪 表盘 


9.Zookeeper 


该 模块 支持 Zookeeper 3.4.0 及 以 上 版 本 。 采 集 的 mntr 数 据 示 例如 下 : 


“zookeeper": { 
"mntr": { 
"approximate data size": 27, 
"ephemerals count": 0, 


"latency": { 
"avg": 0, 
"max": 0, 
"min": 0 


"num alive connections": 1, 
"outstanding _ requests": 0, 
"packets": { 

"received": 10, 
sent": 9 


"server_state": "standalone", 

"version": "3.4.8--1, built on 02/06/2016 03:18 GMT", 
"watch count": 0, 

"znode count": 4 


8.4.3 ”采集 Docker 中 的 指标 


metricbeat 的 system 数 据 大 多 采集 自 /proc。 而 Docker 中 ， 每 个 容器 的 实际 数据 是 放 在 /hostfs 而 不 是 /proc 里 的 。 所 以 如 果 要 用 metricbeat 采 集 容器 数据 ， 需 要 先 挂 载 好 对 应 路 径 : 


$ sudo docker run \ 
--volume=/proc:/hostfs/proc:ro \ 
--volume=/sys/fs/cgroup:/hostfs/sys/fs/cgroup:ro \ 
~-volume=/:/hostfs:ro \ 
--net=host 
my/metricbeat: latest -system.hostfs=/hostfs 


8.5 winlogbeat 


winlogbeat 通 过 标准 的 Windows API 获 取 Windows 系 统 日 志 ， 比 采用 WM| 方 式 的 logstash-input-wmi 采 集 到 的 日 志 内 容 要 更 加 规范 易 懂 。 推 荐 在 管理 Windows 操 作 系统 环境 的 读者 考虑 使 用 。 


常见 的 Windows 日 志 有 application、Hardware、security 和 system 四 类 。winlogbeat 示 例 配 置 如 下 : 


winlogbeat .event logs: 
- name: Application 
provider: 


- Application Error 
=- Application Hang 
- Windows Error Reporting 
— EMET 
- name: Security 
level: critical, error, warning 
event_id: 4624, 4625, 4700-4800, 
- name: System 
ignore_older: 168h 
- name: Microsoft-Windows-Windows Defender/Operational 
include_xml: true 
output.elasticsearch: 
hosts: 


-4735 


- localhost:9200 
pipeline: "windows-pipeline-id" 
logging.to_files: true 
logging. files: 
path: C:/ProgramData/winlogbeat/Logs 
logging. level: info 


和 其 他 beat 一 样 ， 这 里 示例 的 配置 不 都 是 必 填 项 。 
者 有 特殊 用 途 的 字段 做 出 解释 : 


事实 上 只 有 event logs.name 是 必须 的 。 而 winlogbeat 的 输出 字段 中 ， 除 了 beats 家 族 的 通用 内 容 外 ， 还 包括 一 系列 特有 字段 。 下 面 针 对 一 些 常用 或 


- activity_id: 活动 ID， 用 来 唯一 标示 某 次 操作 。 
' computer_name: 如 果 运 行 在 Windows 事 件 转 发 模式 ， 这 个 值 会 和 beat.hostname 不 一 样 。 


“event_id: 事件 ID， 代 表 本 次 操作 属于 某 一 类 事件 ， 这 是 Windows 系 统 日 志 最 重要 的 信息 。 


- level: 可 选 值 包括 Success、Information、Warming、Error、Audit Success 和 Audit Failure o 
” message: 存放 应 用 输出 信息 。 

+ process_id: 进程 ID。 

* user.identifier: 用 户 的 标示 ID。 

‘username: 用 户 名 。 


' user.domain: 用 户 归 属 的 AD 域 。 


二 部 分 Elasticsearch 


“ 第 9 章 架构 原理 

“ 第 10 章 ”数据 接口 用 例 

“第 11 章 ”性 能 优化 

“第 12 章 测试 和 扩展 方案 

“ 第 13 章 ”映射 与 模板 的 定制 

“ 第 14 章 ”监控 方案 

' 第 15 章 ”Elasticsearch 在 运 维 监控 领域 的 其 他 应 用 


Elasticsearch 来 源 于 作者 Shay Banon 的 第 一 个 开源 项 目 Compass 库 ， 而 这 个 Java 库 最 初 的 目的 只 是 为 了 给 Shay 当时 正在 学 厨师 的 妻子 做 一 个 菜谱 的 搜索 引擎 。2010 年 ，Elasticsearch 正 式 发 布 ， 至 今 已 经 成 为 
GitHub 上 最 流行 的 Java 项 目 ， 不 过 Shay 承 诺 给 妻子 的 菜谱 搜索 依然 没有 面世 …… 


2015 年 年 初 ，Elasticsearch 公 司 召开 了 第 一 次 全 球 用 户 大 会 Elastic{ON}15。 诸 多 IT 巨 头 纷纷 赞助 、 参 会 、 演 讲 。 会 后 ，Elasticseatrch 公 司 宣布 改名 Elastic， 公 司 官网 也 变 成 http://elastic.co/。 这 意味 着 
Elasticsearch 的 发 展 方向 不 再 限于 搜索 业务 ， 也 就 是 说 ，ELK Stack 等 机 器 数据 和 IT 服务 领域 成 为 官方 更 加 注意 的 方向 。 随 后 几 个 月 ， 专 注 监控 报警 的 Watcher 发 布 beta 版 ， 社 区 有 名 的 网 络 抓 包 工具 Packetbeat、 
多 年 专注 于 基于 机 器 学 习 的 异常 探测 Preletrt 等 ITOA 周 边 产品 也 被 Elastic 公 司 收购 。 


第 9 章 ”架构 原理 


Elasticsearch 的 一 些 架构 设计 ， 对 我 们 做 性 能 调 优 、 故 障 处 理 ， 具 有 非常 重要 的 影响 。 所 以 ， 作 为 Elasticsearch 部 分 的 起 始 章节 ， 先 从 数据 流向 和 分 布 的 层面 ， 介 绍 一 下 Elasticsearch 的 工作 原理 ， 以 
及 相关 的 可 控 项 。 对 基础 内 容 熟 悉 的 读者 可 以 跳 过 这 章 先 阅读 后 面 的 运 维 操作 部 分 ， 但 作为 性 能 调 优 的 基础 知识 ， 依 然 建议 大 家 抽 时 间 返 回来 了 解 。 


本 书 作为 ELK stack 指 南 ， 关 注 于 Elasticsearch 在 日 志和 数据 分 析 场 景 的 应 用 ， 并 不 打算 对 底层 的 Lucene 原 理 或 者 Java 编 程 做 详细 的 介绍 ， 本 章 主 要 内 容 包 括 : 准 实时 索引 的 实现 ，segment merge 的 
影响 ，routing 和 replica 的 读 写 过 程 ，shard 的 allocate 控 制 ， 自 动 发 现 的 配置 。 


9.1 “ 准 实时 索引 的 实现 


既然 介绍 数据 流向 ， 首 先 第 一 步 就 是 : 写 入 的 数据 是 如 何 变 成 Elasticsearch 里 可 以 被 检索 和 聚合 的 索引 内 容 的 。 


以 单 文件 的 静态 层面 看 ， 每 个 全 文 索 引 都 是 一 个 词 元 的 倒 排 索引 ， 具 体 涉及 全 文 索引 的 通用 知识 ， 这 里 不 单独 介绍 ， 有 兴趣 的 读者 可 以 阅读 《Lucene in Action》 等 书籍 详细 了 解 。 本 节 介 绍 数据 在 写 
入 Elasticsearch 索 引流 程 中 发 生 的 具体 操作 。 重 点 在 于 其 中 segment、buffer 和 translog 三 部 分 对 实时 性 和 性 能 方面 的 影响 。 


9.1.1 动态 更 新 的 Lucene 索 引 


以 在 线 动 态 服务 的 层面 看 ， 要 做 到 实时 更 新 条 件 下 数据 的 可 用 和 可 靠 ， 就 需要 在 倒 排 索 引 的 基础 上 ， 再 做 一 系列 更 高 级 的 处 理 。 
其 实 总 结 一 下 Lucene 的 处 理 办 法 ， 很 简单 ， 就 是 一 句 话 : 新 收 到 的 数据 写 到 新 的 索引 文件 里 。 


Lucene 把 每 次 生成 的 倒 排 索引 ， 叫 做 一 个 段 (segment) 。 然 后 另外 使 用 一 个 commit 文 件 ， 记 录 索 引 内 所 有 的 segment。 而 生成 sgment 的 数据 来 源 则 是 放 在 内 存 中 的 buffer。 也 就 是 说 ， 动 态 更 新 
过 程 如 下 : 


1) 当前 索引 有 3 个 segment 可 用 ， 索 引 状 态 如 图 9-1 所 示 。 


Commit point 


图 9-1 写 入 前 索引 状态 


2) 新 接收 的 数据 进入 内 存 buffer， 索 引 状 态 如 图 9-2 所 示 。 


Commit point 


In-memory buffer 


3) 内 存 buffer 刷 到 磁盘 ， 生 成 一 个 新 的 segment，commit 文 件 同步 更 新 。 索 引 状 态 如 图 9-3 所 示 。 
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图 9-3 ”数据 可 搜索 状态 
9.1.2 ”利用 磁盘 缓存 实现 的 准 实时 检索 


既然 涉及 磁盘 ， 那 么 一 个 不 可 避免 的 问题 就 来 了 : 磁盘 太 慢 了 ! 对 我 们 要 求实 时 性 很 高 的 服务 来 说 ， 这 种 处 理 还 不 够 。 所 以 ， 在 第 3 步 的 处 理 中 ， 还 有 一 个 中 间 状 态 : 


1) 内 存 buffer 生 成 一 个 新 的 segment， 刷 到 文件 系统 缓存 中 ，Lucene 即 可 检索 这 个 新 Segment。 索 引 状 态 如 图 9-4 所 示 。 
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图 9-4 文件 系统 缓存 


2) 文件 系统 缓存 真正 同步 到 磁盘 上 ，commit 文 件 更 新 。 达 到 图 9-3 中 的 状态 。 


这 一 步 刷 到 文件 系统 缓存 的 步骤 ， 在 Elasticsearch 中 ， 是 默认 设置 为 1 秒 间隔 的 ， 对 于 大 多 数 应 用 来 说 ， 几 乎 就 相当 于 是 实时 可 搜索 了 。Elasticsearch 也 提供 了 单独 的 /_refresh 接 口 ， 用 户 如果 对 1 秒 间 
隔 还 不 满意 的 ， 可 以 主动 调用 该 接口 来 保证 搜索 可 见 。 


不 过 对 于 ELK stack 的 日 志 场景 来 说， 恰恰 相反 ， 我 们 并 不 需要 如 此 高 的 实时 性 ， 而 是 需要 更 快 的 写 入 性 能 。 所 以 ， 一 般 来 说， 我 们 反而 会 通过 /_settings 接 口 或 者 定制 template 的 方式 ， 加 大 


refresh_interval 参 数 : 


# curl -XPOST http://127.0.0.1:9200/logstash-2015.06.21/_settings -d' 
{ "refresh_interval": "10s" } 
' 


如 果 是 导入 历史 数据 的 场合 ， 那 甚至 可 以 先 完全 关闭 掉 : 


# curl -XPUT http://127.0.0.1:9200/logstash-2015.05.01 -d' 


"settings" : { 
"refresh interval": "-1" 


p 


在 导入 完成 以 后 ， 修 改 回来 或 者 手动 调用 一 次 即 可 : 


# curl -XPOST http://127.0.0.1:9200/logstash-2015.05.01/_refresh 


9.1.3 translog 提 供 的 磁盘 同步 控制 


既然 refresh 只 是 写 到 文件 系统 缓存 ， 那 么 最 后 一 步 写 到 实际 磁盘 又 是 由 什么 来 控制 的 ? 如 果 这 期 间 发 生 主机 错误 、 硬 件 故障 等 异常 情况 ， 数 据 会 不 会 丢失 ? 


这 里 ， 其 实 有 另 一 个 机 制 来 控制 。Elasticsearch 在 把 数据 写 入 到 内 存 buffer 的 同时 ， 其 实 还 另外 记录 了 一 个 translog 日 志 。 也 就 是 说 ， 第 2 步 也 并 不 是 图 9-2 的 状态 ， 而 是 像 图 9-5 这 样 。 


在 第 3 和 第 4 步 ，refresh 发 生 的 时 候 ，translog 日 志文 件 依然 保持 原样 ， 如 图 9-6 所 示 。 
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图 9-6 ”translog 继 续 记录 
也 就 是 说 ， 如 果 在 这 期 间 发 生 异常 ，Elasticsearch 会 从 commit 位 置 开 始 ， 恢 复 整个 translog 文 件 中 的 记录 ， 保 证 数据 一 致 性 。 


等 到 真正 把 segment 刷 到 磁盘 ， 且 commit 文 件 进行 更 新 的 时 候 ，translog 文 件 才 清 空 。 这 一 步 ， 叫 做 flush。 同 样 ，Elasticsearch 也 提供 了 /_flush 接 口 。 


对 于 flush 操 作 ，Elasticsearch 默 认 设 置 为 : 每 30 分 钟 主动 进行 一 次 flush， 或 者 当 translog 文 件 大 小 大 于 512MB ( 老 版 本 是 200MB) 时 ， 主 动 进行 一 次 flush。 这 两 个 行为 ， 可 以 分 别 通过 
index.translog.flush_threshold_period 和 index.translog.flush_threshold_ size 参数 修 改 。 


如 果 对 这 两 种 控制 方式 都 不 满意 ，Elasticsearch 还 可 以 通过 index.translog.flush_threshold_ops 参 数 ， 控 制 每 收 到 多 少 条 数据 后 flush 一 次 。 


translog 的 一 致 性 
索引 数据 的 一 致 性 通过 translog 保 证 。 那 么 translog 文 件 自己 呢 ? 


默认 情况 下 ，Elasticsearch 每 5 秒 ， 或 每 次 请 求 操作 结束 前 ， 会 强制 刷新 translog 日 志 到 磁盘 上 。 后 者 是 Elasticsearch 2.0 新 加 入 的 特性 。 为 了 保证 不 丢 数据 ， 每 次 index、bulk、delete、update 完 成 
的 时 候 ， 一 定 触 发 刷新 translog 到 磁盘 上 ， 才 给 请 求 返回 200 OK。 这 个 改变 在 提高 数据 安全 性 的 同时 当然 也 降低 了 一 点 性 能 。 


如 果 你 不 在 意 这 点 可 能 性 ， 还 是 希望 性 能 优先 ， 可 以 在 index template 里 设置 如 下 参数 来 进行 控制 : 


{ 
"index.translog.durability": "async" 
} 


大 家 可 能 注意 到 了 ， 前 面 一 段 内 容 ， 一 直 写 的 是 “Lucene 索 引 ”。 这 个 区 别 在 于 ，Elasticsearch 为 了 完成 分 布 式 系统 ， 对 一 些 名 词 概念 作 了 变动 。 索 引 成 为 了 整个 集群 级 别 的 命名 ， 而 在 单个 主机 上 的 
Lucene 索 引 ， 则 被 命名 为 分 片 (shard) 。 至 于 数据 是 怎么 识别 到 自己 应 该 在 哪个 分 片 ， 请 阅读 下 一 节 有 关 routing 的 内 容 。 


9.2 segment merge 的 影响 


通过 上 节 内 容 ， 我 们 知道 了 数据 怎么 进入 Elasticsearch 并 且 如 何 才能 让 数据 更 快 地 被 检索 使 用 。 其 中 用 一 句 话 概括 了 Lucene 的 设计 思路 就 是 “ 开 新 文件 ”， 但 另 一 个 方面 看 ， 开 新 文件 也 会 给 服务 器 带 
来 负载 压力 。 因 为 默认 每 1 秒 都 会 有 一 个 新 文件 产生 ， 每 个 文件 都 需要 有 文件 句柄 、 内 存 、CPU 使 用 等 各 种 资源 。 一 天 有 86400 秒 ， 设 想 一 下 ， 每 次 请 求 要 扫描 一 遍 86400 个 文件 ， 这 个 响应 性 能 绝对 好 不 
ma 


为 了 解决 这 个 问题 ，Elasticsearch 会 不 断 在 后 台 运 行 任务 ， 主 动 将 这 些 零 散 的 egment 做 数据 归并 ， 尽 量 让 索引 内 只 保有 少量 的 ,每 个 都 比较 大 的 ，segment 文 件 。 本 节 介绍 Segment merge 操 作对 
写 入 性 能 的 影响 ， 以 及 其 控制 策略 和 优化 方法 。 


这 个 过 程 是 有 独立 的 线程 来 进行 的 ， 并 不 影响 新 segment 的 产生 。 归 并 过 程 中 ， 索 引 状 态 如 图 9-7 所 示 ， 尚 未 完成 的 较 大 的 segment 是 被 排除 在 检索 可 见 范围 之 外 的 : 


当归 并 完成 ， 较 大 的 这 个 segment 刷 到 磁盘 后 ，commit 文 件 做 出 相应 变更 ， 删 除 之 前 几 个 小 segment， 改 成 新 的 大 segment。 等 检索 请 求 都 从 小 segment 转 到 大 segment 上 以 后 ， 删 除 没 用 的 小 
segment。 这 时 候 ， 索 引 里 segment 数 量 就 下 降 了 ， 状 态 如 图 9-8 所 示 。 


Commit point 


Ber? eset 
L | 


Searchable 
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图 9-8 segment merge ZR 


9.2.1 “归并 线程 配置 


segment 归 并 的 过 程 ， 需 要 先 读 取 segment， 归 并 计算 ， 再 写 一 遍 segment， 最 后 还 要 保证 刷 到 磁盘 。 可 以 说 ， 这 是 一 个 非常 消耗 磁盘 VO 和 CPU 的 任务 。 所 以 ，Elasticsearch 提 供 了 对 归并 线程 的 限 
速 机 制 ， 确 保 这 个 任务 不 会 过 分 影响 到 其 他 任务 。 


之 前 ， 归 并 线程 的 限 速 配置 indices.store.throttle.max_bytes_per_sec 是 20MB。 对 于 写 入 量 较 大 ,磁盘 转速 较 高 ， 甚 至 使 用 SSD 盘 的 服务 器 来 说 ， 这 个 限 速 是 明显 过 低 的 。 对 于 ELK stack 应用， 建议 
可 以 适当 调 大 到 100MB 或 者 更 高 。 


# curl -XPUT http://127.0.0.1:9200/_cluster/settings -d' 
{ 


"persistent" : { 
"indices.store.throttle.max_bytes_per_sec" : "100mb" 
P | 


ES 5.0 开 始 ， 对 此 作 了 大 幅度 改进 ,使 用 了 Lucene 的 CMS (ConcurrentMergeScheduler) 的 auto throttle 机 制 ， 正 常情 况 下 已 经 不 再 需要 手动 配置 indices.store.throttle.max_bytes_per sec 了 。 官 
方 文档 中 都 已 经 删除 了 相关 介绍 ， 不 过 从 源码 中 还 是 可 以 看 到 ， 这 个 值 目前 的 默认 设置 是 10240 MB, 


归并 线程 的 数目 ，Elasticsearch 也 是 有 所 控制 的 。 默 认 数目 的 计算 公式 是 : Math.min (3, Runtime.getRuntime () .availableProcessors () /2) 。 即 服务 器 CPU 核 数 的 一 半 大 于 3 时 ， 启 动 3 个 归并 
线程 ; 否则 启动 跟 CPU 核 数 的 一 半 相 等 的 线程 数 。 相 信 一 般 做 ELK stack 的 服务 器 CPU 核 数 都 会 在 6 个 以 上 。 所 以 一 般 来 说 就 是 3 个 归并 线程 。 如 果 你 确定 自己 磁盘 性 能 跟 不 上 ， 可 以 降低 
index.merge.schedulermax thread_ count 配置 ， 免 得 MO 情况 更 加 恶化 。 


9.2.2 ”归并 策略 
归并 线程 是 按照 一 定 的 运行 策略 来 挑选 Segment 进 行 归并 的 。 主 要 有 以 下 几 条 : 
+ index.metge.policy.floor_segment 黑 认 2MB ， 小 于 这 个 大 小 的 segment， 优 先 被 归并 。 
+ index.merge.policy.max_merge_at_once 默 认 一 次 最 多 归并 10 个 segment。 


+ index.merge.policy.max_merge_at_once_explicit 默 认 forcemerge 时 一 次 最 多 归并 30 个 segment。 


+ index.merge.policy.max_merged_segment#kiA5 GB ， 大 于 这 个 大 小 的 segment， 不 用 参与 归并 。optimize 除 外 。 


根据 这 段 策略 ， 其 实 我 们 也 可 以 从 另 一 个 角度 考虑 如 何 减少 segment 归 并 的 消耗 以 及 提高 响应 的 办 法 : 加 大 flush 间 隔 ， 尽 量 让 每 次 新 生成 的 segment 本 身 大 小 就 比较 大 。 


9.2.3 forcemerge 接 口 


既然 默认 的 最 大 segment 大 小 是 5GB。 那 么 一 个 比较 庞大 的 数据 索引 ， 就 必然 会 有 为 数 不 少 的 segment 永 远 存 在 ， 这 对 文件 句柄 、 内 存 等 资源 都 是 极 大 的 浪费 。 但 是 由 于 归并 任务 太 消耗 资源 ， 所 以 一 
般 不 太 选 择 加 大 index.merge.policy.max_merged segment 配置 ， 而 是 在 负载 较 低 的 时 间 段 ， 通 过 forcemerge 接 口 ， 强 制 归 并 segment。 


# curl -XPOST http://127.0.0.1:9200/logstash-2015-06.10/_forcemerge?max_num_segments=1 


由 于 forcemerge 线 程 对 资源 的 消耗 比 普通 的 归并 线程 大 得 多 ， 所 以 ， 强 烈 建议 不 要 对 还 在 写 入 数据 的 热 索 引 执行 这 个 操作 。 这 个 问题 对 于 ELK stack 来 说 非常 好 办 ， 一 般 索引 都 是 按 天 分 割 的 。 更 合适 
的 任务 定义 方式 请 阅读 本 书 稍 后 的 11.6 节 “curator 工 具 ”。 


9.3 routing 和 replica 的 读 写 过 程 


之 前 两 节 完整 介绍 了 在 单个 Lucene 索 引 ， 即 Elasticsearch 分 片 内 的 数据 写 入 流程 。 现 在 彻底 回 到 Elasticsearch 的 分 布 式 层面 上 来 ， 当 一 个 Elasticsearch 节 点 收 到 一 条 数据 的 写 入 请 求 时 ， 它 是 如 何 确认 
这 个 数据 应 该 存储 在 哪个 节点 的 哪个 分 片上 的 ? 本 节 介绍 数据 写 入 过 程 中 ，Elasticsearch 是 如 何 确定 具体 的 节点 位 置 ， 以 及 副本 的 控制 策略 。 


9.3.1 路 由 计算 


作为 一 个 没有 额外 依赖 的 简单 的 分 布 式 方案 ，Elasticsearch 在 这 个 问题 上 同样 选择 了 一 个 非常 简洁 的 处 理 方式 ， 对 任 一 条 数据 计算 其 对 应 分 片 的 方式 如 下 : 


shard = hash(routing) % number of primary shards 


每 个 数据 都 有 一 个 routing 参 数 ， 默 认 情 况 下 ， 就 使 用 其 id 值 。 将 其 id 值 计算 哈 希 后 ， 对 索引 的 主 分 片 数 取 余 ， 就 是 数据 实际 应 该 存储 到 的 分 片 ID。 


由 于 取 余 这 个 计算 ， 完 全 依赖 于 分 母 ， 所 以 导致 Elasticsearch 索 引 有 一 个 限制 ， 索 引 的 主 分 片 数 ， 不 可 以 随意 修改 。 因 为 一 旦 主 分 片 数 不 一 样 ， 所 以 数据 的 存储 位 置 计 算 结果 都 会 发 生 改变 ， 索 引 数据 
就 完全 不 可 读 了 。 


9.3.2 副本 一 致 性 


作为 分 布 式 系统 ， 数 据 副本 可 算是 一 个 标 配 。Elasticsearch 数 据 写 入 流程 ， 自 然 也 涉及 副本 。 在 有 副本 配置 的 情况 下 ， 数 据 从 发 向 Elasticsearch 节 点 ， 到 接 到 Elasticsearch 节 点 响应 返回 ， 流 向 如 下 
( 见 图 9-9) : 


NODE 1- ® MASTER 


CLUSTER 


图 9-9 ”数据 写 入 流程 


1) 客户 端 请 求 发 送 给 Node 1 节点 ， 注 意图 中 Node 1 是 Master 节 点 ， 实 际 完全 可 以 不 是 。 


2) Node 1 用 数据 的 id 取 余 计算 得 到 应 该 将 数据 存储 到 shard 0 上 。 通 过 cluster state 信 息 发 现 shard 0 的 主 分 片 已 经 分 配 到 了 Node 3 上 。Node 1 转发 请 求 数据 给 Node 3。 


3) Node 3 完成 请 求 数据 的 索引 过 程 ， 存 入 主 分 片 0。 然 后 并 行 转发 数据 给 分 配 有 shard 0 的 副本 分 片 的 Node 1 和 Node 2。 当 收 到 任 一 节点 汇报 副本 分 片 数据 写 入 成 功 ，Node 3 即 返 回 给 初始 的 接收 节 
点 Node 1， 宣 布 数据 写 入 成 功 。Node 1 返回 成 功 响应 给 客户 端 。 


这 个 过 程 中 ， 有 几 个 参数 可 以 用 来 控制 或 变更 其 行为 。 


- wait_for_active_shards: 上 面 示例 中 ， 两 个 副本 分 片 只 要 有 1 个 成 功 ， 就 可 以 返回 给 客户 端 了 。 这 点 也 是 有 配置 项 的 ， 其 默认 值 的 计算 来 源 如 下 : 


int( (primary + number of replicas) / 2) +1 


该 参数 可 以 通过 index.write.wait_for_active_shards 在 索引 级 别 设置 ， 也 可 以 根据 需要 在 单个 写 入 请 求 上 作为 参数 使 用 ， 设 置 为 1 表示 仅 写 完 主 分 片 就 返回 ; 设置 为 all， 表 示 等 所 有 副本 分 片 都 写 完 才能 
返回 ; 还 可 以 设置 为 其 他 介 于 1 到 number_of replicas+ 1 之 间 的 数值 。 


“ timeout: 如 果 集 群 出 现 异 常 ， 有 些 分 片 当前 不 可 用 ，Elasticseartch 默 认 会 等 待 1 分 钟 看 分 片 能 否 恢复 。 可 以 使 用 ? timeout=30s 参 数 来 缩短 这 个 等 待 时 间 。 


“ 副本 配置 和 分 片 配 置 不 一 样 ， 是 可 以 随时 调整 的 。 有 些 较 大 的 索引 ， 甚 至 可 以 在 做 optimize 前 ， 先 把 副本 全 部 取消 看 ， 等 optimize 完 后 ， 再 重新 开启 副本 ， 节 约 单个 segment 的 重复 归并 消耗 。 


# curl -XPUT http://127.0.0.1:9200/logstash-mweibo-2015.05.02/_settings -d '{ 
"index": { "number of replicas" : 0 } 
}" 


9.4 shard 的 allocate 控 制 


本 节 介绍 分 片 在 集群 中 的 分 配 策略 ， 手 动 控制 方式 ， 以 及 由 此 衍生 出 来 的 Elasticsearch 读 写 分 离 方 案 。 


某 个 shard 分 配 在 哪个 节点 上 ， 一 般 来 说 ， 是 由 Elasticsearch 自 动 决定 的 。 以 下 几 种 情况 会 触发 分 配 动 作 : 


:新 索引 生成 。 

“ 索引 的 删除 。 

“ 新 增 副本 分 片 。 

“节点 增 减 引 发 的 数据 均衡 。 
Elasticsearch 提 供 了 一 系列 参数 详细 控制 这 部 分 逻辑 : 

- clustertoutingallocation.enable 参 数 用 来 控制 允许 分 配 哪 种 分 片 。 默 认 是 all。 可 选项 还 包括 ptimaties 和 new_primaties。none 则 彻底 拒绝 分 片 。 该 参数 的 作用 ， 本 书 稍 后 集群 升级 章节 会 有 说 明 。 


“cluster.routing.allocation.allow_rebalance 参 数 用 来 控制 什么 时 候 允 许 数据 均衡 。 默 认 是 indices_all_active， 即 要 求 所 有 分 片 都 正常 启动 成 功 以 后 ， 才 可 以 进行 数据 均衡 操作 ， 否 则 的 话 ， 在 集群 重启 阶段 、 
会 浪费 太 多 流量 了 。 


“cluster.routing.allocation.cluster_concurrent_rebalance 参 数 用 来 控制 集群 内 同时 运行 的 数据 均衡 任务 个 数 。 上 默认 是 2 个 。 如 果 有 节点 增 减 ， 且 集群 负载 压力 不 高 的 时 候 ， 可 以 适当 加 大 。 


“cluster.routing.allocation.node_initial_primaries_recoveries 参 数 用 来 控制 节点 重启 时 ， 允 许 同 时 恢复 几 个 主 分 片 。 默 认 是 4 个 。 如 果 节 点 是 多 磁盘 ， 且 I/O 〇 压力 不 大 ， 可 以 适当 加 大 。 


“cluster.routing.allocation.node_concurrent_recoveries 参 数 用 来 控制 节点 除了 主 分 片 重启 恢 复 以 外 其 他 情况 下 ， 允 许 同 时 运行 的 数据 恢复 任务 。 默 认 是 2 个 。 所 以 ， 节 点 重启 时 ， 可 以 看 到 主 分 片 迅速 恢复 完 
副本 分 片 的 恢复 却 很 慢 。 除 了 副本 分 片 本 身 数据 要 通过 网 络 复制 以 外 ， 并 发 线程 本 身 也 减少 了 一 半 。 当 然 ， 这 种 设置 也 是 有 道理 的 一 一 主 分 片 一 定 是 本 地 恢复 ， 副 本 分 片 却 需要 走 网 络 ， 带 宽 是 有 限 
的 。 从 Elasticsearch 1.6 开 始 ， 冷 索引 的 副本 分 片 可 以 本 地 恢复 ， 这 个 参数 也 就 是 可 以 适当 加 大 了 。 


by 
型 


+ indices.tecovetry.concuttrent_stteams 参 数 用 来 控制 节点 从 网 络 复制 恢复 副本 分 片 时 的 数据 流 个 数 。 默 认 是 3 个 。 可 以 配合 上 一 条 配置 一 起 加 大 。 


"indices.recovetry.max_bytes_per_sec 参 数 用 来 控制 节点 恢复 时 的 速率 。 默 认 是 40MB。 显 然 是 比较 小 的 ， 建 议 加 大 。 


此 外 ，Elasticsearch 还 有 一 些 其 他 的 分 片 分 配 控制 策略 。 比 如 以 tag 和 rack_id 作 为 区 分 等 。 一 般 来 说 ，ELK stack 场 景 中 使 用 不 多 。 运 维 人 员 可 能 比较 常见 的 策略 有 两 种 : 


+ 磁盘 限额 一 一 为 了 保护 节点 数据 安全 ，Elasticsearch 会 定时 (cluster.info.update.interva， 默 认 30 秒 ) 检查 一 下 各 节点 的 数据 目录 磁盘 使 用 情况 。 在 达到 cluster.routing.allocation.disk.watermark.low (默认 
85%) 的 时 候 ， 新 索引 分 片 就 不 会 再 分 配 到 这 个 节点 上 了 。 在 达到 cluster.routingallocation.disk.watermark.high (默认 90%) 的 时 候 ， 就 会 触发 该 节点 现存 分 片 的 数据 均衡 ， 把 数据 挪 到 其 他 节点 上 去 。 这 两 个 值 
不 但 可 以 写 百 分 比 ， 还 可 以 写 有 具体 的 字 节 数 。 有 些 公司 可 能 出 于 成 本 考虑 ， 对 磁盘 使 用 率 有 一 定 的 要 求 ， 需 要 适当 抬 高 这 个 配置 : 


# curl -XPUT localhost:9200/_cluster/settings -d '{ 


"transient" : { 
"cluster.routing.allocation.disk.watermark.low" : "85%", 
"cluster. routing.allocation.disk.watermark.high" : "10gb", 
"cluster.info.update.interval" : "1m" 


} 
p 


“ 热 索 引 分 片 不 均一 默认 情况 下 ，Elasticsearch 集 群 的 数据 均衡 策略 是 以 各 节点 的 分 片 总 数 (indices_all_active) 作为 基准 的 。 这 对 于 搜索 服务 来 说 无 疑 是 均衡 搜索 压力 提高 性 能 的 好 办 法 。 但 是 对 于 
ELK stack 场 景 ， 一 般 压力 集中 在 新 索引 的 数据 写 入 方面 。 正 常 运行 的 时 候 ， 也 没有 问题 。 但 是 当 集群 扩容 时 ， 新 加 入 集群 的 节点 ， 分 片 总 数 远 远 低 于 其 他 节点 。 这 时 候 如 果 有 新 索引 创建 ，Elasticsearch 的 默 
认 策 略 会 导致 新 索引 的 所 有 主 分 片 几 乎 全 分 配 在 这 台新 节点 上 。 整 个 集群 的 写 入 压力 ， 压 在 一 个 节点 上 ， 结 果 很 可 能 是 这 个 节点 直接 被 压 死 ， 集 群 出 现 异常 。 所 以 ， 对 于 ELK stack 场 景 ， 强 烈 建议 大 家 预先 
计算 好 索引 的 分 片 数 后 ， 配 置 好 单 节点 分 片 的 限额 。 比 如 ， 一 个 5 节点 的 集群 ， 索 引 主 分 片 10 个 ， 副 本 1 份 。 则 平均 下 来 每 个 节点 应 该 有 4 个 分 片 ， 那 么 家 


# curl -s PUT http://127.0.0.1:9200/logstash-2015.05.08/ settings -d '{ 
"index": { "routing.allocation.total_shards_per_node" Tr 


p 


注意 ， 这 里 配置 的 是 5 而 不 是 4。 因 为 我 们 需要 预防 有 机 器 故障 ， 分 片 发 生 迁 移 的 情况 。 如 果 写 的 是 4， 那 么 分 片 迁移 会 失败 。 


此 外 ， 另 一 种 方式 则 更 加 玄妙 ，Elasticsearch 中 有 一 系列 参数 ， 相 互 影响 ， 最 终 联 合 决定 分 片 分 配 : 
“cluster.routing.allocation.balance.shard 节 点 上 分 配 分 片 的 权重 ， 上 默认 值 为 0.45。 数 值 越 大 越 倾向 于 在 节点 层面 均衡 分 片 。 
“cluster.routing.allocation.balance.index 每 个 索引 往 单个 节点 上 分 配 分 片 的 权重 ， 默 认 值 为 0.55。 数 值 越 大越 倾 向 于 在 索引 层面 均衡 分 片 。 


“cluster.routing.allocation.balance.threshold 大 于 阅 值 则 触发 均衡 操作 。 上 默认 值 为 1。Elasticsearch 中 的 计算 方法 是 : 


(indexBalance (node.numShards (index) - avgShardsPerNode (index)) + shardBalance (node.numShards() - avgShardsPerNode)) <=> weightthreshold 


所 以 ， 也 可 以 采取 加 大 cluster.routing.allocation.balance.index 的 措施 ， 甚 至 设置 clusterrouting.allocation.balance.shard 为 0 来 尽量 采用 索引 内 的 节点 均衡 。 


9.4.1 reroute 接口 


上 面 说 的 各 种 配置 ， 都 是 从 策略 层面 ， 控 制 分 片 分 配 的 选择 。 在 必要 的 时 候 ， 还 可 以 通过 Elasticsearch 的 reroute 接 口 ， 手 动 完 成 对 分 片 的 分 配 选 择 的 控制 。 


reroute 接 | 


支持 三 种 指令 : allocate、move 和 cancel， 常 


的 是 allocate 和 move。 


“ allocate 指 令 : 因为 负载 过 高 等 原因 ， 有 时 候 个 别 分 片 可 能 长 期 处 于 UNASSIGNED 状 态 ， 我 们 就 可 以 手动 分 配 分 片 到 指定 节点 上 。 上 默认 情 况 下 只 允许 手动 分 配 副 本 分 片 
单独 加 一 个 alow_primary 选 项 : 


， 所 以 如 果 是 主 分 片 故障 ， 需 要 


# curl -XPOST 127.0.0.1:9200/_cluster/reroute -d '{ 
"commands" : [ { 
"allocate" : 
"index" : "logstash-2015.05.27", "shard" : 61, "node" : "10.19.0.77", "allow primary": true 
} 
} 


y 


注意 ， 如 果 是 历史 数据 的 话 ， 请 提前 确认 一 下 哪个 节点 上 保留 有 这 个 分 片 的 实际 目录 ， 且 目录 大 小 最 大 。 然 后 手动 分 配 到 这 个 节点 上 。 以 此 减少 数据 丢失 。 
.move 指 令 : 


因为 负载 过 高 ， 磁 盘 利用 率 过 高 ， 服 务 器 下 线 ， 更 换 磁 盘 等 原因 ， 可 以 会 需要 从 节点 上 移 走 部 分 分 片 


# curl -XPOST 127.0.0.1:9200/_cluster/reroute -d '{ 
"commands" : [ { 
"move" : 
{ 
"index" : "logstash-2015.05.22", "shard" 
} 


: 0, "from node" : "10.19.0.81", "to node" : "10.19.0.104" 
p 


94.2 分配 失 败 原因 


如 果 是 自己 手工 reroute 失 败 ，Elasticsearch 返 回 
定 分 片 的 具体 失败 理由 : 


的 响应 中 会 带 上 失败 的 原因 。 不 过 格式 非常 难看 ， 


一 堆 YES 或 NO。 从 5.0 版 本 开始 ，Elasticsearch 新 增 了 一 个 allocation explain 接 口 


， 专 门 用 来 解释 指 


curl -XGET 'http://localhost:9200/_cluster/allocation/explain' -d'{ 
"index": "logstash-2016.10.31", 
"shard": 0, 


"primary": false 


p 


得 到 的 响应 如 下 : 
{ 
"Shard" : { 
"index" : "myindex", 
"index uuid" : "KnW0-zELRs6PK8410r38ZA", 
"id" : 0, 
"primary" : false 
ty 
"assigned" : false, 
"shard state _fetch_pending": false, 
“unassigned info" = { 


"INDEX CREATED", 
"at" : "2016-03-22T20:04:23.6202" 
hy 
"allocation delay_ms" : 0, 
"remaining delay ms" : 0, 
"nodes" : { 


"V-Spi0AyRZ6ZvKbal3691w" : { 


"node name" : "HSdfFeA", 
"node attributes" : { 
"bar" + "baz" 
ty 
"store" { 
"shard_copy" : "NONE" 
tr 
"final decision" : "NO", 


"final explanation" : 
"weight" : 0.06666675, 
"decisions" : [ { 
"decider" : "filter", 
"decision" : "NO", 
"explanation" : "node does not match index include filters [foo:\"bar\"]" 
} 1 


"the shard cannot be assigned because one or more allocation decider returns a 'NO' decision", 


} 


, 
C6VL8C5RWaw1gXZORg57g" : { 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


JSON 字 符 ， 把 集群 里 所 有 的 节点 都 列 上 来 ， 挨 个 解释 为 什么 不 能 分 配 到 这 个 节点 。 


9.4.3 ”节点 下 线 


稳定 运行 过 
动 转移 ， 就 显得 太 过 麻烦 了 。 这 个 时 候 ， 有 另 一 种 方式 : 


集群 中 个 别 节点 出 现 故 障 预 警 等 情况 需要 下 线 ， 也 是 Elasticsearch 运 维 工作 中 常见 的 情况 。 如 果 已 经 稳定 运行 过 一 段 时 间 的 集群 ， 每 个 节点 上 都 会 保存 有 数量 不 少 的 分 片 。 这 种 时 候 通过 reroute 接 | 


curl -XPUT 127.0.0.1:9200/_cluster/settings -d '{ 
"transient" :{ 


"cluster. routing.allocation.exclude._ip" : "10.0.0.1" 
} 
p 


Elasticsearch 集 群 就 会 把 这 个 IP 上 的 所 有 分 片 ， 都 自 


动 转移 到 其 他 节点 上 。 等 到 转移 完成 ， 这 个 空 节 点 就 可 以 毫 无 影响 的 下 线 了 。 


和 _ip 类 似 的 参数 还 有 _host，_name 等 。 此 外 ， 这 类 参数 不 单 是 cluster 级 别 ， 也 可 以 是 index 级 别 。 下 一 小 节 就 是 index 级 别 的 上 


例 。 
94.4 ” 冷 热 数据 的 读 写 分 离 


Elasticsearch 集 群 一 个 比较 突出 的 问题 是 : 用 户 做 一 次 大 的 查询 时 ， 非 常 大 量 地 读 |/O 以 及 聚合 计算 导致 机 器 Load 升 高 ，CPU 使 
所 以 ， 可 能 需要 仿照 MySQL 集 群 一 样 ， 做 读 写 分 离 。 


率 上 升 ， 会 影响 阻塞 到 新 数据 的 写 入 ， 这 个 过 程 甚至 会 持续 几 分 钟 。 


实施 步骤 如 下 : 


1) N 台 机 器 做 热 数 据 的 存储 ， 上 再 


只 放 当 天 的 数据 。 这 N 台 热 数据 节点 上 面 的 elasticsearc.yml 中 配置 node.tag: hot 


2) 之 前 的 数据 放 在 另外 的 M 台 机 器 上 。 这 M 人 台 冷 数据 节点 中 配置 node.tag: stale 


3) 模板 中 控制 对 新 建 索引 添加 hot 标 签 : 


"order" : 0, 
"template" : "*", 
"settings" : { 
"index. routing.allocation.require.tag" : "hot" 


} 


4) 每 天 计划 任务 更 新 索引 的 配置 ， 将 tag 更 改 为 stale， 索 引 会 自动 迁移 到 M 台 冷 数据 节点 


# curl -XPUT http://127.0.0.1:9200/indexname/_settings -d' 
{ 


"index": 


{ 


"routing": { 
"allocation": { 


} 
p 


"require": { 
"tag": "stale" 
} 

} 


这 样 ， 写 操作 集中 在 N 人 台 热 数据 节点 上 ， 大 范围 的 读 操作 集中 在 M 人 台 冷 数据 节点 上 。 避 免 了 堵塞 影响 。 


该 方案 运 


的 ， 是 Elasticsearch 中 的 allocation filter 功 能 ， 详 细 说 明 见 : https://www.elastic.co/guide/en/elasticsearch/reference/master/shard-allocation-filtering.html 


95 ”自动 发 现 的 配置 


Elasticsearch 是 一 个 P2P 类 型 (使 用 gossip 协 议 ) 的 分 布 式 系统 ， 除 了 集群 状态 管理 以 外 ， 其 他 所 有 的 请 求 都 可 以 发 送 到 集群 内 任意 一 台 节 点 上 ， 这 个 节点 可 以 自己 找到 需要 转发 给 哪些 节点 ， 并 且 


接 跟 这 些 节点 通信 。 所 以 ， 从 网 络 架构 及 服务 配置 上 来 说， 构建 集群 所 需要 的 配置 极其 简单 。 在 Elasticsearch 2.0 之 前 ， 无 阻碍 的 网 络 下 ， 所 有 配置 了 相同 clustername 的 节点 都 自动 归属 到 一 个 集群 中 。 
2.0 版 本 之 后 ， 基 于 安全 的 考虑 ，Elasticsearch 稍 作 了 调整 ， 避 免 开发 环境 过 于 随便 造成 的 麻烦 。 


ES 从 2.0 版 本 开始 ， 自 动 发 现 方式 改 为 了 默认 单 播 (unicast) 方式 。5.0 版 本 开始 ， 更 是 把 原先 的 组 播 (multicast) 彻底 删除 。 单 播 方式 的 配置 里 ， 提 供 几 台 节点 的 地 址 (和 可 选 的 端 


口 ) ，Elasticsearch 将 其 视 作 gossip router 角 色 ， 借 以 完成 集群 的 发 现 。 由 于 这 只 是 Elasticsearch 内 一 个 很 小 的 功能 ， 所 以 gossip router 角 色 并 不 需要 单独 配置 ， 每 个 Elasticsearch 节 点 都 可 以 担任 。 所 


以 ， 采 用 单 播 方式 的 集群 ， 各 节点 都 配置 相同 的 几 个 节点 列表 作为 router 即 可 。 


此 外 ， 考 虑 到 节点 有 时 候 因为 高 负载 、 慢 GC 等 原因 ， 可 能 会 有 偶尔 没 及 时 响应 ping 包 ， 一 般 建 议 稍 微 加 大 Fault Detection 的 超时 时 间 。 同 样 基于 安全 考虑 做 的 变更 还 有 监听 的 主机 名 。 现 在 默认 只 监 
听 本 地 lo 网 卡 上 的 信号 。 所 以 正式 环境 上 需要 修改 配置 为 监听 具体 的 网 卡 : 


network.host: "192.168.0.2" 

discovery.zen.minimum master nodes: 3 
discovery.zen.ping.timeout: 100s 

discovery.zen.fd.ping timeout: 100s 
discovery.zen.ping.multicast.enabled: false 
discovery.zen.ping.unicast.hosts: ["10.19.0.97","10.19.0.98"] 


上 面 的 配置 中 ， 两 个 timeout 可 能 会 让 人 有 所 迷惑 。 这 里 的 ? fd? 是 fault detection 的 缩写 。 也 就 是 说 : 


. discovery.zen.ping.timeout 参 数 仅 在 加 入 或 者 选举 mastet 主 节点 的 时 候 才 起 作用 。 


“ discovery.zen.fd.ping_timeout 参 数 在 稳定 运行 的 集群 中 ，master 检 测 所 有 节点 ， 以 及 节点 检测 master 是 否 畅 通 时 长 期 有 用 。 


既然 是 长 期 有 


自然 还 有 运行 间隔 和 重 试 的 配置 ， 也 可 以 根据 实际 情况 进行 调整 : 


discovery.zen.fd.ping interval: 10s 
discovery.zen.fd.ping retries: 10 


第 10 章 


数据 接口 用 例 


虽然 大 多 数 时 候 我 们 都 是 通过 Logstash 导 入 数据 ， 但 是 运 维 人 员 依 然 需 要 掌握 一 些 Elasticsearch 接 口 ， 这 些 接口 在 日 常 维护 、 架 构 变更 等 任务 中 起 到 特殊 的 作用 。 由 于 ELK stack 场 景 对 相关 性 打分 要 求 


不 高 ， 本 章 着 重 介绍 增删 改 查 、 搜 索 请 求 、 肢 本、 重建 索引 、Spark Streaming 交 互 。 


10.1 增删 改 查 操作 


增删 改 查 是 数据 库 的 基础 操作 方法 。Elasticsearch 虽 然 不 是 数据 库 ， 但 是 很 多 场合 下 ， 都 被 人 们 当做 一 个 文档 型 NoSQI! 数 据 库 在 使 用 ， 原 因 自然 是 因为 在 接口 和 分 布 式 架构 层面 有 相似 性 。 昌 然 在 ELK 


stack 场 景 下 ， 


数据 的 写 入 和 查询 分 别 由 Logstash 和 Kibana 代 劳 ， 但 作为 测试 、 调 研 和 排 错 时 的 基本 功 ， 还 是 需要 了 解 一 下 Elasticsearch 的 增删 改 查 用 法 的 。 


1 .数据 写 入 


Elasticsearch 的 一 大 特点 ， 就 是 全 RESTfu| 接 口 处 理 JSON 请 求 。 所 以 ， 数 据 写 入 非常 简单 : 


Tite 


# curl -XPOST http://127.0.0.1:9200/logstash-2015.06.21/testlog -d '{ 


date" 


: "1434966686000", 


"chenlin7", 


" : "first message into Elasticsearch" 


命令 返回 响应 结果 为 : 


{"_index": "logstash-2015.06.21","_type":"testlog", "_id": "AU4ew3h2nBE6n0gqcyVJK", "_version":1,"created":true} 


2 数据 获取 


可 以 看 到 ， 在 数据 写 入 的 时 候 会 返回 该 数据 的 id。 这 是 后 续 用 来 获取 数据 的 关键 : 


# curl -XGET http://127.0.0.1:9200/logstash-2015.06.21/testlog/AU4ew3h2nBE6n0qcyVJK 


命令 返回 响应 结果 为 : 


{"_index":"logstash-2015.06.21","_type":"testlog","_id":"AU4ew3h2nBE6n0qcyVJK", "_version":1,"found":true," source": { 
"date" : "1434966686000", 


_source 里 的 内 容 ， 正 是 之 前 写 入 的 数据 


如 果 觉 得 这 个 返回 结果 看 起 来 有 点 太 过 麻烦 ， 可 以 使 用 curl-XGET http://127.0.0.1: 9200/logstash-2015.06.21/testlog/AU4ew3h2nBE6n0qcyVJK/_source 来 指明 只 获取 源 数据 部 分 。 


更 进一步 ， 如 果 你 只 想 看 数据 中 的 部 分 字段 内 容 ， 可 以 使 用 curl-XGET http://127.0.0.1: 9200/logstash-2015.06.21/testlog/AU4ew3h2nBE6n0qcyVJK? fields=user，mesg 来 指明 获取 字段 ， 结 果 
如 下 : 


{"_index":"l1ogstash-2015.06.21","_type":"testlog","_id":"AU4ew3h2nBE6n0qcyVJK","_version" :1, "found" :true, "fields" :{"user": ["chenlin7"], "mesg": ["first message into Elasticsearck 


3 .数据 删除 


要 删除 数据 ， 修 改 发 送 的 HTTP 请 求 方法 为 DELETE 即 可 :: 


# curl -XDELETE http://127.0.0.1:9200/logstash-2015.06.21/testlog/AU4ew3h2nBE6n0qcyVJK 


删除 不 单 针对 单条 数据 ， 还 可 以 删除 整个 type 旋 至 整个 索引 ， 甚 至 可 以 用 通配符 : 


# curl -XDELETE http://127.0.0.1:9200/logstash-2015.06.0* 


在 Elasticsearch 2.x 之 前 ， 可 以 通过 查询 语句 删除 ， 也 可 以 删除 某 个 _type 内 的 数据 。 现 在 都 已 经 不 再 内 置 支持 ， 改 为 Delete by Query 插 件 。 因 为 这 种 方式 本 身 对 性 能 影响 较 大 ! 


4 数据 更 新 


已 经 写 过 的 数据 ， 也 是 可 以 修改 的 。 有 两 种 办 法 ， 一 种 是 全 量 提交 ， 即 


# curl -XPOST http://127.0.0.1:9200/logstash-2015.06.21/testlog/AU4ew3h2nBE6n0qcyVJK Say 
"date" : "1434966686000", 
"chenlin7", 
"mesg"""first message into Elasticsearch but version 2" 
1 


另 一 种 是 局 部 更 新 ， 使 用 /update 接 


# curl -XPOST 'http://127.0.0.1:9200/logstash-2015.06.21/testlog/AU4ew3h2nBE6n0qcyVJK/_update' -d '{ 
"doc" =. 

"user" : "someone" 

}t f 


或 者 


# curl -XPOST 'http://127.0.0.1:9200/logstash-2015.06.21/testlog/AU4ew3h2nBEé6n0qcyVJK/_update' -d '{ 
script" : "ctx._source.user = \"someone\"" 
1 


10.2 BREK 


上 节 介 绍 的 都 是 针对 单条 数据 的 操作 。 在 Elasticsearch 环 境 中 ， 更 多 的 是 搜索 和 聚合 请 求 。 在 5.0 之 前 版 本 中 ， 数 据 获取 和 数据 搜索 甚至 有 极 大 的 区 别 : 刚 写 入 的 数据 ， 可 以 通过 translog 立 刻 获取 ; 但 
是 却 要 等 到 refresh 成 为 一 个 segment 后 ， 才 能 被 搜索 到 。 从 5.0 版 本 开始 ，Elasticsearch 稍 作 了 改动 ， 不 再 维护 doc-id 到 translog offset 的 映射 关系 ,一旦 GET 请 求 到 这 个 还 不 能 搜 到 的 数据 ， 就 强制 
refresh 出 来 Segment， 这 样 就 可 以 搜索 了 。 这 个 改动 降低 了 数据 获取 的 性 能 ,但 是 节省 了 不 少 内 存 , 减少 了 young GC 次 数 ， 对 写 入 性 能 有 很 大 提升 。 本 节 就 介绍 Elasticsearch 的 搜索 语法 。 


10.2.1 ”全文 搜索 


Elasticsearch 的 搜索 请 求 有 简易 语法 和 完整 语法 两 种 方式 。 简 易 语 法 是 Kibana 上 最 常用 的 方式 ， 一 定 要 学 会 。 而 在 命令 行 里 ， 我 们 可 以 通过 最 简单 的 方式 来 做 到 。 还 是 上 节 输入 的 数据 : 


# curl -XGET http://127.0.0.1:9200/logstash-2015.06.21/testlog/_search?q=first 


可 以 看 到 返回 结果 : 


{"took":240, "timed out":false," shards":{"total":27,"successful":27,"failed": 
0},"hits":{"total":1, "max score" :0.11506981, "hits": [{"_index":"logstash- 
2015.06.21","_type":"testlog","_ id": "AU4ew3h2nBE6n0qcyVJK", 

"_score":0.11506981," source": { = 


"date" 


1434966686000", 
chenlin7", 
: "first message into Elasticsearch" 


还 可 以 用 下 面 语句 搜索 ， 结 果 是 一 样 的 。 


# curl -XGET http://127.0.0.1:9200/logstash-2015.06.21/testlog/_search?q=user:"chenlin7" 


1.querystring 语 法 


上 例 中 ，? q= 后 面 写 的 就 是 querystring 语 法 。 鉴 于 这 部 分 内 容 会 在 Kibana 上 经 常 使 用 ， 这 里 详细 解析 一 下 语法 : 


“ 全 文 检索 : 直接 写 搜索 的 单词 ， 如 上 例 中 的 first。 

. 单字 段 的 全 文 检索 : 在 搜索 单词 之 前 加 上 字段 名 和 冒号 ， 比 如 ， 如 果 知 道 单 词 fitst 肯 定 出 现在 mesg 字 段 ， 可 以 写作 mesg: firsts 

“ 单字 段 的 精确 检索 : 在 搜索 单词 前 后 加 双 引 号 ， 比 如 user: “chenlin7”。 

“ 多 个 检索 条 件 的 组 合 : 可 以 使 用 NOT、AND 和 OR 来 组 合 检 索 ， 注 意 必须 是 大 写 。 比 如 user: ( “chenlin7” OR “chenlin” ) AND NOT mesg: firsto 
“ 字段 是 否 存 在 : _exists_: user 表 示 要 求 uset 字 段 存 在 ，_missing_: user 表 示 要 求 user 字 段 不 存在 。 

“ 通配符 : 用 ? 表示 单字 母 ，* 表 示 任意 个 字母 。 比 如 fir? t mess*。 


“ 正则: 需要 比 通配符 更 复杂 一 点 的 表达 式 ， 可 以 使 用 正则 。 比 如 mesg: /mes{2}ages? /。 注 意 Elasticsearch 中 正则 性 能 很 差 ， 而 且 支 持 的 功能 也 不 是 特别 强大 ， 尽 量 不 要 使 用 。Elasticsearch 支 持 的 正则 


语法 见 : https://www.clastic.co/guide/en/elasticsearch/ reference /current/query-dsl-regexp-query.html##regexp-syntaxe 
:近似 搜索 : 用 ~ 表示 搜索 单词 可 能 有 一 两 个 字母 写 得 不 对 ， 请 Elasticsearch 按 照相 似 度 返 回 结果 。 比 如 fist~。 
“ 范围 搜索 : 对 数值 和 时 间 ，Elasticsearch 都 可 以 使 用 范围 搜索 ， 比 如 : rtt: >300, date: [ “now-6h” TO “now”} 等 。 其 中 ,上 表示 端点 数值 包含 在 范围 内 ， 人 {表示 端点 数值 不 包含 在 范围 内 。 


2. 完 整 语法 


Elasticsearch 支 持 各 种 类 型 的 检索 请 求 ， 除 了 可 以 用 querystring 语 法 表达 以 外 ， 还 有 很 多 其 他 类 型 ， 具 体 列表 和 示例 可 参 


W: https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-queries.html, 


作为 最 简单 和 常用 的 示例 ， 这 里 展示 一 下 term query 的 写法 ， 相 当 于 querystring 语 法 中 的 user: “chenlin7” : 


# curl -XGET http://127.0.0.1:9200/_search -d ' 
{ 
"query": { 
"term": { 
"user": "chenlin7" 


} 
p 


10.2.2 ”聚合 请 求 


在 检索 范围 确定 之 后 ，Elasticsearch 还 支持 对 结果 集 做 聚合 查询 ， 返 回 更 直接 的 聚合 统计 结果 。 在 Elasticsearch 1.0 版 本 之 前 ， 这 个 接口 叫 facet，1.0 版 本 之 后 ， 这 个 接口 改 为 aggregation。 


过 去 ，aggregation 分 为 bucket 和 metric 两 种 ， 分 别 用 作词 元 划分 和 数值 计算 。 而 其 中 的 bucket aggregation 还 支持 在 自身 结果 集 的 基础 上 考 加 新 的 aggregation。 这 就 是 aggregation 领 先 于 facet 的 
地 方 。 比 如 实现 一 个 时 序 百分比 统计 ， 在 facet 接 口 无 法 直接 完成 ， 而 在 aggregation 接 口 就 很 简单 了 ， 如 下 所 示 : 


# curl -XPOST 'http://127.0.0.1:9200/logstash-2015.06.22/_search?size=0&pretty' -d'{ 
"aggs" : { 
"percentile over_time" : { 
"date histogram" : { 


"field" : "@timestamp", 
"interval" : "1h" 
hy 
"aggs" : { 
"percentile one time" : { 
"percentiles" : { 
"field" : "requesttime" 
} 
} 
$ 
} 
} 
p 
得 到 的 结果 如 下 : 


{ 

"took" : 151595, 
"timed out" : false, 
"shards" : { 
“total” 3 81, 
"successful" : 81, 
"failed" : 0 


a 

"total" : 3307142043, 
"max_score" : 1.0, 
hits” 4 [] 

tr 
"aggregations" : { 
"percentile over_time" : { 
"buckets" : [ { 
"key as string" : "22/Jun/2015:22:00:00 +0000", 
"key" : 1435010400000, 
"doc_count" : 459273981, 
“percentile one time" : { 
"values" : { 
"1.0" : 0.004, 
"5.0" : 0.006, 
"25.0" y 0.023, 
"50.0" : 0.035, 
"75.0" : 0.08774675719725569, 
"95.0" : 0.25732934416125663, 
"99.0" : 0.7508899754871812 


tat 
"key as_string" : "23/Jun/2015:00:00:00 +0000", 
"key™ : 1435017600000, 
"doc count" : 768620219, 
"percentile one time" : { 
"values" : { 
"1.0" : 0.004, 
"5.0" : 0.007000000000000001, 


"25.0 0.025, 

"50.0 0.03987809503972864, 
"1500 0.10297843567746187, 
"95.2.0 0.30047269327062875, 
"99.0" : 1.015495933753329 


} 
} 


tr f 
"key as string" : "23/Jun/2015:02:00:00 +0000", 
"key" : 1435024800000, 
"doc_count" : 849467060, 
"percentile one_time" : { 
"values" : { 
"1.0" : 0.004, 
"5.0" : 0.008, 


"25..0 0.027000000000000003, 
"50.0 0.0439999899006102, 
"75.0 0.1160416197625958, 
"95.0 0.3383140614483838, 
"99.0 1.0275839684542212 


} 
} 
¥ 


Elasticsearch 目 前 能 支持 的 聚合 请 求 列表 ， 参见: https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations.html, 


10.2.3 pipeline 聚合 


在 Elasticsearch 2.x 中 ， 新 增 了 pipeline aggregation 类 型 。 可 以 在 已 有 aggregation 返 回 的 数组 数据 之 后 ， 再 对 这 组 数值 做 一 次 运算 。 在 Kibana 5.0 内 置 的 timelion 中 ， 就 用 到 了 这 类 聚合 接口 。 


最 常见 的 pipeline 聚 合 场景 ， 就 是 对 时 序数 据 求 移动 平均 值 。 比 如 对 响应 时 间 设 置 如 下 : 周期 为 7， 移 动 窗口 为 20，alpha、beta、gamma 参 数 均 为 0.5，holt-winters 季 节 性 预测 2 个 未 来 值 的 请 求 代码 
如 下 所 示 : 


"aggs" : { 
"my date histo" : { 
"date histogram" : { 


ield" : "@timestamp", 
“interval” ; "lh" 
hy 
"aggs" : { 
"avgtime" : { 
"avg" : { "field" : "requesttime" } 
ty 
"the movavg" : { 
“moving_avg" : { 
“buckets_path" : "avgtime", 
"window" : 30, 
"model" : "holt_winters", 
"predict" : 2, 
"settings" { 
"type" : "mult" 
"alpha" Usd), 
"beta" 0.5, 
"gamma" DiS 
"period" : 7, 
"pad" : true 
} 
} 
} 
} 
} 
} 
} 
响应 如 下 : 
{ 
"took" 312, 
"timed out" : false, 
"shards" : { 
“total” +. 10; 
"successful" : 10, 
"failed" : 0 
ty 
"hitst y { 
"total? z L1133L; 
"max_score" : 0.0, 
itsa [p] 
ty 
"aggregations" : { 
"my date histo" : { 
"buckets" : [ { 
"key as string" : "2015-12-24T02:00:00.0002", 


"key" : 1450922400000, 
"doc_count" : 1462, 
"avgtime" : { 
"value" : 508.25649794801643 
} 
ty 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 
hr 
"key as string" : "2015-12-24T17:00:00.0002", 
"key" : 1450976400000, 
"doc_count" : 1664, 
"avgtime" : 
"value" : 504.7067307692308 
Fa 
"the movavg" : { 
"value" : 500.9766851760192 
} 
Fi 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 
tr d 


"key as_ string" : "2015-12-25T09:00:00.0002", 
"key" : 1451034000000, 
"doc_count" : 0, 


"the movavg" : { 
"value" : 493.9519632950849, 
"value_as_string" : "1970-01-01T00:00:00.4932" 


可 以 看 到 ， 在 第 一 个 移动 窗口 还 没 满足 之 前 ， 是 没有 移动 平均 值 的 ; 而 在 实际 数据 已 经 结束 后 ， 虽 然 没有 平均 值 了 ， 但 是 预测 的 移动 平均 值 却 还 有 数 。 


buckets_path 语 法 


由 于 aggregation 是 有 堆 赤 层级 关系 的 ， 所 以 pipeline aggregation 在 引用 metric aggregation 时 也 就 会 涉及 层级 的 问题 。 在 上 例 中 ，the_movavg 和 avgtime 是 同一 层级 ， 所 以 buckets_path 直 接 写 
avgtime 即 可 。 但 是 如 果 我 们 把 the_movavg 上 提 一 层 ， 跟 my_date_histo 同 级 ， 这 个 buckets_path 怎 么 写 才 行 呢 ? 


"buckets path" : "my date histo>avgtime" 


如 果 用 的 是 返回 的 数值 有 多 个 值 的 聚合 ， 比 如 ? percentiles? 或 者 ? extended stats, ME: 


"buckets path" : "percentile over time>percentile one time.95" 


ES 目前 能 支持 的 聚合 请 求 列表 ， 参 见 : https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations.html。 


参考 阅读 : Holt Winters 预 测算 法 ， 见 : https://en.wikipedia.org/wiki/Holt-Winters。 其 在 运 维 领域 最 著名 的 运用 是 RRDtool 中 的 HWPREDICT。 


10.24 ”搜索 请 求 参 数 


搜索 请 求 参数 如 下 : 
from: 从 索引 的 第 几 条 数据 开始 返回 ， 默 认 是 0。 


‘size: 返回 多 少 条 数据 ， 默 认 是 10。 


Os Elasticsearch 集 群 实际 是 需要 给 coordinate node 返 回 shards number* (from+size) 条 数据 ， 然 后 在 单机 上 进行 排序 ， 最 后 给 客户 端 返回 大 小 为 size 的 数据 。 所 以 请 谨慎 使 用 from 和 size 参 数 。 
- 此 外 ，Elasticsearch 2.x 还 新 增 了 一 个 索引 级 别 的 动态 控制 配置 项 : index.max_result_window， 默 认为 10000。 即 from+size 大 于 10000 的 话 ，Elasticsearch 直 接 拒绝 掉 这 次 请 求 不 进行 具体 搜索 ， 以 保护 节 


+ Elasticsearch 2.x 还 提供 了 一 个 小 优化 : 当 设置 “size”: 0 时 ， 自 动 改变 search_type 为 count。 跳 过 搜索 过 程 的 fetch 阶 段 。 


+ timeout: coordinate node 等 待 超 时 时 间 。 到 达 该 阅 值 后 ，cootrdinate node 直 接 把 当前 收 到 的 数据 返回 给 客户 端 ， 不 再 继续 等 待 data node 后 续 的 返回 了 。 注 意 ， 这 个 参数 只 是 为 了 配合 客户 端 程序 ， 并 不 能 
取消 掉 data node 上 搜索 任务 还 在 继续 运行 和 占用 资源 。 


“terminate_after; 各 data node 上 ， 扫 描 单 个 分 片 时 找到 多 少 条 记录 后 ， 就 认为 足够 了 。 这 个 参数 可 以 切实 保护 data node 上 搜索 任务 不 会 长 期 运行 和 占用 资源 。 但 是 也 就 意味 着 搜索 范围 没有 禾 盖 全 部 索 
引 ， 是 一 个 抽样 数据 。 准 确 率 是 不 好 判断 的 。 


+ request_cache: 各 datanode 上 ， 在 分 片 级 别 对 请 求 的 响应 〈 仅 限于 hits.total 数 值 、aggregation 和 suggestion 的 结果 集 ) 做 的 缓存 。 注 意 ， 这 个 缓存 的 键 值 要 求 很 严格 ， 请 求 的 ISON 必 须 一 字 不 易 ， 缓 存 才能 
命中 。 


另外 ，request_cache 参 数 不 能 写 在 请 求 JSON 里 ， 只 能 以 URL 参 数 的 形式 存在 。 示 例如 下 : 


curl -XPOST http://localhost:9200/_search?request_cache=true -d ' 
{ 


"size" + 0, 

"timeout" : "120s", 

"terminate_after" : 1000000, 

"query" : { "match all" : {} }, 

“aggs" : { "terms" : { "terms" : { "field" : "keyname" } } } 


有 关 缓 存 的 作用 和 原理 说 明 ， 本 书 稍 后 章节 会 有 详细 解释 。 


10.3 脚本 


Elasticsearch 中 ， 可 以 使 用 自 定义 脚本 扩展 功能 ， 包 括 评分 、 过 滤 函 数 和 聚合 字段 等 方面 。 内 置 脚本 引 敬 历经 MVEL、Groovy、Lucene expression 的 变换 后 ，Elastic.co 最 终 决定 实现 一 个 自己 专用 的 
Painless 脚 本 语言 ， 并 在 5.0 版 正式 发 布 。 作 为 ELK stack 场 景 ， 我 们 只 介绍 在 聚合 字段 方面 使 用 脚本 的 方式 。 


10.3.1 动态 提交 


最 简单 易 用 的 方式 ， 就 是 在 正常 的 请 求 体 中 把 field 换 成 script 提 交 。 比 如 一 个 标准 的 terms agg 改 成 script 方 式 ， 写 法 如 下 : 


# curl 127.0.0.1:9200/logstash-2015.06.29/_search -d '{ 


aggs" : { 
"clientip topl0" : { 
"terms" : { 
"soript™ z 
"lang" : "painless", 
"inline" : "doc['clientip'].value" 


在 script 中 ， 有 三 种 方式 引用 数据 : doc[” clientip ‘].value, field[’ clientip 和.value 和 _source.clientip。 区 别 在 于 : 


+ docll.value 读 取 doc value 内 的 数据 。 


. _field[| 读 取 field 设 置 “store”: true 的 存储 内 容 。 


+ _source.obj.attr 读 取 _source 的 JSON 内 容 。 


这 也 意味 着 ， 前 者 必须 读 取 的 是 最 终 的 词 元 字段 数据 ， 而 后 者 可 以 返回 任意 的 数据 结构 。 


ie 因为 读 取 的 是 fielddata， 所 以 如 果 有 分 词 的 话 ，docll.value 读 取 到 的 是 分 词 后 的 数据 。 因 此 ， 应 按 需 使 用 doc[”clientip.raw “].value 写 法 。 


10.3.2 ”国定 文件 


Painless 虽 好 ， 毕 竟 太 新 ， 官 方 至 今 连 完 整 的 编程 示例 都 没有 给 出 。 如 果 你 有 比较 复杂 的 需求 ，inline Painless 方 式 不 方便 的 ， 依 然 可 以 使 


groovy 或 其 他 脚本 文件 来 完成 。 


为 了 和 动态 提交 的 语法 有 区 别 ， 调 用 固定 文件 的 写法 如 下 : 


# curl 127.0.0.1:9200/logstash-2015.06.29/_search -d '{ 


"aggs" : { 
"clientip subnet_topl0" : { 
"terms" : { 
"script" : { 
"file" : "getvalue", 
lang "groovy", 
‘params { 


"fieldname": "clientip.keyword", 


"clientip.raw", 


"pattern": "*((?:\d{1,3}\.?) {3})\.\d{1,3}$" 


上 例 要 求 在 Elasticsearch 集 群 的 所 有 数据 节点 上 ， 都 保存 一 个 /etc/elasticsearch/scripts/getvalue.groovy 文 件 ， 并 且 该 脚本 文件 可 以 接收 fieldname 和 pattern 两 个 变量 。 试 举例 如 下 : 


#!/usr/bin/env groovy 


matcher = ( doc[fieldname].value =~ /${pattern}/ ) 


if (matcher.matches()) { 
matcher [0] [1] 
} 


Oa Elasticsearch 进 程 默认 每 分 钟 扫描 一 次 /etc/elasticsearch/scripts/ 目录 ， 并 尝试 加 载 该 目录 下 的 所 有 文件 作为 sctipt。 所 以 ， 不 要 在 该 目录 内 做 文件 编辑 等 工作 ， 不 要 分 发 .svn 等 目录 到 生成 环 
境 ， 这 些 临时 或 者 隐藏 文件 会 被 Elasticseatch 进 程 加 载 然 后 报错 。 


10.3.3 ”其 他 语言 


Elasticsearch 支 持 通过 插件 方式 扩展 脚本 语言 的 支持 ， 目 前 默认 自 带 的 语言 包括 : 


"lucene expression 


+ groovy 


+ mustache 


+ painless 


而 Github 上 目前 已 有 以 下 语言 插件 支持 ， 基 本 覆盖 了 所 有 JVM 上 的 可 用 语言 : 


+ https://github.com/elastic/elasticsearch-lang-mvel 


+ https://github.com/elastic/elasticsearch-lang-javascript 


+ https://github.com/elastic/elasticsearch-lang-python 


+ https://github.com/hiredman/elasticsearch-lang-clojure 


+ https://github.com/felipehummel/elasticsearch-lang-scala 


+ https://github.com/fcheung/elasticsearch-jruby 


10.4 ”重建 索引 


Elasticsearch 本 身 不 提供 对 索引 的 rename、mapping、alter 等 操作 。 所 以 ， 如 果 需 要 对 全 索引 数 直 


做 一 次 索引 写 入 。 这 个 过 程 叫做 reindex (重建 索引 ) 。 


之 前 完成 这 个 过 程 只 能 自己 写 程序 ， 或 者 


居 进 行 导 出 ， 或 者 修改 某 个 已 有 字段 的 mapping 设 置 等 ， 只 能 通过 scroll AP| 导 出 全 部 数据 ， 然 后 重新 


logstash。5.0 版 本 中 ，Elasticsearch 将 这 个 过 程 内 置 为 reindex API, (ABBR: 这 个 接口 并 没有 什么 


科技 ，3 


其 本 质 仅仅 是 将 这 段 相同 逻辑 的 代码 预 置 


分 发 而 已 。 如 果 有 复杂 的 数据 变更 操作 等 细节 需求 ， 依 然 需要 自己 编程 完成 。 


下 面 分 别 给 出 这 三 种 方法 的 示例 : 


10.4.1 Perla Pii 


Elastic 官 方 提供 各 种 语言 的 客户 端 库 ， 其 中 ，Perl 库 提供 了 对 重建 索引 比较 方便 的 写法 和 示例 。 通 过 cpanm Search: : Elasticsearch 命 令 安装 完 库 后 ， 使 用 以 下 程序 即 可 : 


use Search: :Elasticsearch; 
my Ses = Search: :Elasticsearch—>new ( 
nodes => ['192.168.0.2:9200'] 


); 
my $bulk = $es->bulk_helper ( 
index => 'new_index', 
Ri 
$bulk->reindex ( 
source => { 


index => "old index', 
size => 500, # default 
search_type => 'scan' # default 


10.4.2 ”用 Logstash 重 建 索引 


在 最 新 版 的 Logstash 中 ， 对 logstash-input-elasticsearch 插 件 做 了 一 定 的 修改 ， 使 得 通过 Logstash 完 成 重建 索引 成 为 可 能 。 


索引 操作 的 Logstash 配 置 如 下 : 


input { 

elasticsearch { 
hosts => [ "192.168.0.2" ] 
port =>"9200" 
index =>"old_index" 
size => 500 
scroll =>"5m" 
docinfo => true 


} 


output { 
elasticsearch { 
host =>"192.168.0.2" 
port =>"9200" 
protocol =>"http" 
index =>"%{ [@metadata] [_index] }" 
index_type =>"%{[@metadata] [_ type] }" 


document_id =>"%{ [@metadata] [_id] }" 


如 果 做 reindex 的 源 索 引 并 不 是 Logstash 记 录 的 内 容 ， 也 就 是 没有 @timestamp 和 @version 这 两 个 Logstash 字 段 ， 那 么 可 以 在 上 面 配置 中 添加 一 段 filter 配 置 ， 确 保 前 后 索引 字段 完全 一 致 : 


filter { 
mutate { 
remove_field => [ "@timestamp", "@version" ] 


} 


10.4.3 ”新 reindex 接 口 的 应 用 


简单 的 reindex， 可 以 很 容易 完成 ， 如 下 所 示 : 


curl -XPOST http://localhost:9200/_reindex -d ' 
{ 
"source": { 
"index": "logstash-2016.10.29" 
] 
"dest": { 
"index": "logstash-new-2016.10.29" 


复杂 需求 也 能 通过 配合 其 他 APl 未 完成 ， 比 如 script、pipeline 等 AP1， 下 面 举 一 个 复杂 的 示例 : 


curl -XPOST http://localhost:9200/_reindex?slices=5&requests_per_second=10000 -d ' 
{ 
"source": { 
"remote": { 
"host": "http://192.168.0.2:9200", 


"index": "metricbeat-*", 
"query": { 
"match": { 
"host": "webserver" 
} 
} 
tr 
"dest": { 
"index": "metricbeat", 
"pipeline": "ingest-rule-1" 
] 
"script": { 
"lang": "painless", 
"inline": "ctx. index = 'metricbeat-' + (ctx._index.substring('metricbeat-'.length(), ctx._index.length())) + '-1'" 
p i 


上 面 这 个 请 求 的 作用 是 ， 将 来 自 192.168.0.2 集 群 的 metricbeat-2016.10.29 索 引 中 ， 有 关 host: webserver 的 数据 ， 读 取出 来 以 后 ， 经 过 localhost 集 群 的 ingest-rule-1 规 则 处 理 ， 再 写 入 localhost 集 群 
的 metricbeat-2016.10.29-1 索 引 中 。 


Os 读 取 远 端 集群 数据 需要 先 配 置 对 应 的 reindex.remote.whitelist: 192.168.0.2: 9200 到 elasticseatch.yml 的 白 名 单 里 。 


请 求 参数 中 ， 还 有 一 个 slices=5， 这 是 利用 了 5.0 新 加 入 的 sliced scroll 特 性 。 不 过 在 5.0 的 时 候 ， 必 须 自己 手动 拆 分 slice 请 求 ，5.1.1 开 始 ， 才 支持 设 定 该 参数 ， 由 Elasticsearch 自 动 切 分 。 


通过 reindex 接 口 运行 的 任务 可 以 通过 同样 是 5.0 新 引入 的 任务 管理 接口 进行 取消 、 修 改 等 操作 。 


10.5 Spark Streaming 交 互 


Apache Spark 是 一 个 高 性 能 集群 计算 框架 ， 其 中 Spark Streaming 作 为 实时 批 处 理 组 件 ， 由 于 简单 易 上 手 的 特性 而 深 受 人 们 的 喜爱 。 在 es-hadoop 2.1.0 版 本 之 后 ， 也 新 增 了 对 Spark 的 支持 ， 使 得 结 
合 Elasticsearch 和 Spark 成 为 可 能 。 


目前 的 es-hadoop 版 本 和 Elastic 其 他 产品 保持 一 致 ， 最 新 版 为 5.1.1。 对 应 的 支持 并 建议 使 用 的 Spark 版 本 为 1.6.2。 


es-hadoop 的 设计 思路 ， 是 将 Elasticsearch 中 的 hits 结 果 集 ， 通 过 scroll 接 口 下 载 到 hadoop 体 系 中 ， 再 通过 Hadoop 的 MapReduce 来 完成 后 续 运 算 。 为 了 提高 性 能 ， 下 载 过 程 会 主动 按照 shard 切 分 。 
在 和 Spark 结 合 的 情况 下 ，Elasticsearch 中 有 多 少 个 shard， 就 会 针对 性 地 启动 多 少 个 Spark 的 partition。 所 以 ，shard 越 多 ， 并 发 性 越 好 。 


在 5.0 中 ， 因 为 Elasticsearch 的 scroll 接 口 新 增 了 sliced 特 性 ， 并 发 性 更 强 了 。 和 scroll 相 关 的 几 个 配置 如 下 : 


+ es.scroll.keepalive scroll_id 保 留 的 时 长 ， 上 默认 为 10 分 钟 。 

+ es.scroll.size 每 次 读 取 的 大 小 ， 默 认为 50 条 。 

“ es.input.max.docs.per.partition 每 个 partition 最 多 读 取 的 大 小 ， 上 默认 为 10 万 条 。 
类 似 的 ， 也 有 控制 写 入 的 配置 参数 : 

- es.batch.size.bytes 每 次 bulk 写 入 的 最 大 字 节 数 大 小 ， 默 认为 1MB。 

“es.batch.size.entries 每 次 bulk 写 入 的 最 大 条 目 大 小 ， 上 默认 为 1000 条 。 


这 两 个 参数 ， 触 发 一 个 即 生 效 。 


下 面 是 一 段 用 Spark streaming 接 收 Kafka 消 息 队 列 数据 ， 然 后 写 入 Elasticsearch 的 示例 : 


import org.apache.kafka.clients.producer.{KafkaProducer, ProducerConfig, ProducerRecord} 
import org.apache.spark.SparkConf 
import org.apache.spark.streaming._ 
import org.apache.spark.streaming.kafka. 
import org.elasticsearch.spark.streaming._ 
object Elastic { 

def main(args: Array[String]) { 

val numThreads = 1 


val zookeeperQuorum = "localhost:2181" 

val groupId = "test" 

val topic = Array ("test") .map((_, numThreads) ) .toMap 
val elasticResource = "apps/blog" 


val sc = new SparkConf () 

.setMaster ("local [*]") 

.setAppName ("Elastic Search Indexer App") 
sc.set ("es.index.auto.create", "true") 
val ssc = new StreamingContext (sc, Seconds (10) ) 
ssc.checkpoint ("checkpoint") 
val logs = KafkaUtils.createStream(ssc, 

zookeeperQuorum, 


-map(_._2) 

logs.foreachRDD { rdd => 

val microbatches = mutable.Queue (rdd) 

ssc.queueStream (microbatches) 

. SaveJsonToEs (elasticResource) 

} 
ssc.start () 
ssc.awaitTermination () 


可 以 看 到 ， 新 版 本 es-hadoop 提 供 了 对 Spark streaming 和 JSON 的 直接 支持 ， 这 里 不 再 需要 利用 sparkSQL 的 jsonRDD 来 转换 JSON 字 符 串 为 RDD 了 。 


第 11 章 ”性 能 优化 


Elasticsearch 作 为 一 个 开 箱 即 用 的 产品 ， 在 生产 环境 上 线 之 后 ， 却 并 不 一 定 还 能 保持 一 贯 的 性 能 和 稳定 。 如 何 根据 实际 情况 提高 服务 的 性 能 ， 有 很 多 技巧 。 本 章 将 从 以 下 几 方面 讲解 性 能 优化 的 方法 : 
bulk 提 交 、gateway 配 置 、 集 群 状态 维护 、 缓 存 、 字 段 数据 、curator 工 具 。 


11.1 bulk 提 交 


在 第 9 章 ， 我 们 已 经 知道 Elasticsearch 的 数据 写 入 是 如 何 操作 的 了 。 喜 欢 自己 动手 的 读者 可 能 已 经 迫不及待 地 自己 写 了 程序 开始 往 Elasticsearch 里 写 数据 做 测试 。 这 时 候 大 家 会 发 现 : 程序 的 运行 速度 非 
常 一 般 ， 即 使 Elasticsearch 服 务 运 行 在 本 机 ， 一 秒 钟 大 概 也 就 能 写 入 几 百 条 数据 。 


这 种 速度 显然 不 是 Elasticsearch 的 极限 。 事 实 上 ， 每 条 数据 经 过 一 次 完整 的 HTTP POST 请 求 和 Elasticsearch indexing 是 一 种 极 大 的 性 能 浪费 ， 为 此 ，Elasticsearch 设 计 了 批量 提交 方式 。 在 数据 读 取 
方面 ， 叫 mget 接 口 ， 在 数据 变更 方面 ， 叫 bulk 接 口 。mget 一 般 常 用 于 搜索 时 Elasticsearch 节 点 之 间 批 量 获取 中 间 结 果 集 ， 用 户 更 常见 到 的 是 bulk 接 口 。 


bulk 接 口 采用 一 种 比较 简朴 的 数据 积累 格式 ， 示 例如 下 : 


# 

{ : "test", "Type" : "typel" } } 

{ 

{ : "test", "type" : "typel" } } 

{ : "test", "Type" : "typel", "id" : "1" } } 
{ "fieldi" 

{ "update" : {"_id" : "1", "type" : "typel", " index" : "test"} } 
{ 

' 


"doc" : {"field2" : "value2"} } 


格式 是 ， 每 条 JSON 数 据 的 上 面 ， 加 一 行 描述 性 的 元 JSON ， 指 明 下 一 行 数据 的 操作 类 型 、 归 属 索引 信息 等 。 


采用 这 种 格式 ， 而 不 是 一 般 的 JSON 数 组 格式 ， 是 因为 接收 到 bulk 请 求 的 Elasticsearch 节 点 ， 就 可 以 不 需要 做 完整 的 JSON 数 组 解析 处 理 ， 直 接 按 行 处 理 简短 的 元 JSON ， 就 可 以 确定 下 一 行 数 据 JSON 转 
发 给 哪个 数据 节点 了 。 这 样 ， 一 个 固定 内 存 大 小 的 network buffer 空 间 ， 就 可 以 反复 使 用 ， 又 节省 了 大 量 JVM 的 GC。 


事实 上 ， 产 品级 的 Logstash、Rsyslog、Spark 都 是 默认 采用 bulk 接 口 进行 数据 写 入 的 。 对 于 打算 自己 写 程序 的 读者 ， 建 议 采 用 Per 的 Search: : Elasticsearch: : Bulk 或 者 Python 的 
elasticsearch.helpers.* 库 。 


11.1.1 Buk 天水 


在 配置 bulk 数 据 的 时 候 ， 一 般 需 要 注意 的 就 是 请 求 体 大 小 (bulk size) 。 


这 里 有 一 点 细节 上 的 矛盾 ， 我 们 知道 ，HTTP 请 求 ， 是 可 以 通过 HTTP 状 态 码 100 Continue 来 持续 发 送 数据 的 。 但 对 于 Elasticsearch 节 点 接收 HTTP 请 求 体 的 Content-Length 来 说 ， 是 按照 整个 大 小 来 计 
算 的 。 所 以 ， 首 先 ， 要 确保 bulk 数 据 不 要 超过 http.max_content_length 设 置 。 


那么 ， 是 不 是 尽量 让 bulk size 接 近 这 个 数值 呢 ? 当然 不 是 。 依 然 是 请 求 体 的 问题 ， 因 为 请 求 体 需要 全 部 加 载 到 内 存 ， 而 JVM Heap 一 共 就 那么 多 ( 按 31GB 算 ) ， 过 大 的 请 求 体 ， 会 挤占 其 他 线程 池 的 空 
间 ， 反 而 导致 写 入 性 能 的 下 降 。 


再 考虑 网 卡 流量 ， 磁 盘 转 速 的 问题 ， 所 以 一 般 来 说， 建议 bulk 请 求 体 的 大 小 ， 在 15MB 左 右 ， 通 过 实际 测试 继续 向 上 探索 最 合适 的 设置 。 


Orr 这 里 说 的 15MB 是 请 求 体 的 字 节 数 ， 而 不 是 程序 里 里 设置 的 bulk size. bulk size 一 般 指 数据 的 条 目 数 。 不 要 忘 了 ，bulk 请 求 体 中 ， 每 条 数据 还 会 额外 带 上 一 行 元 JSON。 


以 Logstash 默 认 的 bulk_size= > 5000 为 例 ， 假 设 单条 数据 平均 大 小 200B， 一 次 bulk 请 求 体 的 大 小 就 是 1.5MB。 那 么 我 们 可 以 尝试 bulk_size= > 50000; 而 如 果 单 条 数据 平均 大 小 是 20KB， 一 次 bulk 大 小 
就 是 100MB， 显 然 超 标 了 ， 需 要 尝试 设置 : bulk_size=>500。 


11.1.2 UDPAxt 


Elasticsearch 其 实 还 提供 了 一 个 连 HTTP header 解 析 步 骤 都 能 省 略 的 bulk 方 法 ， 叫 UDP bulk， 即 开启 UDP 9700 端 口 ， 直 接 nc 发 送 bulk 数 据 内 容 写 入 。 


由 于 UDP 的 不 可 靠 性 ，Elasticsearch 计 划 从 2.0 版 本 开始 废弃 该 功能 ， 确 实 需 要 高 性 能 写 入 又 不 担心 数据 缺失 问题 的 读者 ， 可 以 参考 Elasticsearch 官 方 文档 使 用 该 功 


mp 
oo 


11.2 gateway 配 置 


gateway 是 Elasticsearch 设 计 用 来 长 期 存储 索引 数据 的 接口 。 一 般 来 说 ， 大 家 都 是 用 本 地 磁盘 来 存储 索引 数据 ， 即 gateway.type 为 local。 


数据 恢复 中 ， 有 很 多 策略 调整 我 们 已 经 在 之 前 9.4 节 讲 过。 除开 分 片 级 别 的 控制 以 外 ，gateway 级 别 也 还 有 一 些 可 优化 的 地 方 ， 如 下 所 示 : 


gateway.recover_after_nodes 参 数控 制 集群 在 达到 多 少 个 节点 的 规模 后 ， 才 开始 数据 恢复 任务 。 这 样 可 以 避免 集群 自动 发 现 的 初期 ， 分 片 不 全 的 问题 。 

“gateway.recover_after_time 参 数控 制 集群 在 达到 上 条 配置 设置 的 节点 规模 后 ， 再 等 待 多 久 才 开 始 数 据 恢复 任务 。 

- gateway.expected_nodes 参 数 设置 集群 的 预期 节点 总 数 。 在 达到 这 个 总 数 后 ， 即 认为 集群 节点 已 经 完全 加 载 ， 即 可 开始 数据 恢复 ， 不 用 再 等 待 上 条 设置 的 时 间 。 
共享 存储 上 的 影子 副本 


=I 


昌 然 Elasticsearch 对 gateway 使 用 NFS、iscsi 等 共享 存储 的 方式 极力 反对 ， 但 是 对 于 较 大 量 级 的 索引 的 副本 数据 ，Elasticsearch 从 1.5 版 本 开始 ， 还 是 提供 了 一 种 节约 成 本 又 不 特别 影响 性 能 的 方式 : 影 
子 副本 (shadow replica) 。 


首先 ， 需 要 在 集群 各 节点 的 elasticsearch.yml 中 开启 选 
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node.enable custom paths: true 


同时 ， 确 保 各 节点 使 用 相同 的 路 径 挂 载 了 共享 存储 ， 且 目录 权限 为 Elasticsearch 进 程 用户 可 读 可 写 。 


然后 ， 创 建 索引 : 


# curl -XPUT 'http://127.0.0.1:9200/my_index' -d ' 
{ 
"index" : { 
"number of shards" : 1, 
"number of replicas" : 4, 
"data path": "/var/data/my_index", 
"shadow_replicas": true 
}t i 


针对 shadow replicas，Elasticsearch 节 点 不 会 做 实际 的 索引 操作 ， 而 是 单纯 地 每 次 flush 时 ， 把 segment 内 容 fsync 到 共享 存储 磁盘 上 。 然 后 refresh 让 其 他 节点 能 够 搜索 该 segment 内 容 。 所 
LA, shadow replicas 里 是 没有 translog 的 ， 对 于 还 没有 refresh 的 数据 ， 如 果 GET 获 取 请 求 传 到 shadow replicas 上 ， 是 查询 不 到 的 ， 请 求 会 自动 变 成 ? preference=_primary 模 式 ， 只 从 主 分 片上 获取 数 
据 。 同 理 ， 在 cluster state 还 没 定期 更 新 过 来 之 前 ， 节 点 上 的 索引 映射 可 能 也 还 保持 着 自己 主 分 片 数 据 的 样式 ， 不 会 因为 shadow replica 里 数据 样式 的 变动 发 生变 动 ， 搜 索 请 求 也 有 可 能 失败 。 


综 上 ，shadow replicas 只 是 一 个 在 某 些 特定 环境 下 有 用 的 方式 。 在 资源 允许 的 情况 下 ， 还 是 应 该 使 用 local gateway。 而 另外 采用 snapshot 接 口 来 完成 数据 长 期 备份 到 HDFS 或 其 他 共享 存储 的 需要 。 


11.3 REPASE 


我 们 都 知道 ，Elasticsearch 中 的 master 跟 一 般 MySQL、Hadoop 的 master 是 不 一 样 的 。 它 即 不 是 写 入 流量 的 唯一 入 口 ， 也 不 是 所 有 数据 的 元 信息 的 存放 地 点 。 所 以 ， 一 般 来 说 ，Elasticsearch 的 
master 节 点 负载 很 轻 ， 集 群 性 能 是 可 以 近似 认为 随 着 data 节 点 的 扩展 线性 提升 的 。 


但 是 ， 上 面 这 句 话 并 不 是 完全 正确 的 。Elasticsearch 中 有 一 件 事 情 是 只 有 master 节 点 能 管理 的 ， 这 就 是 集群 状态 (cluster state) 。 


“ 集群 状态 中 包括 以 下 信息 : 


“ 集群 层面 的 设置 。 


+ 集群 内 有 哪些 节点 。 


“ 各 索引 的 设置 、 映 射 、 分 析 器 和 别名 等 。 


“ 索引 内 各 分 片 所 在 的 节点 位 置 。 


这 些 信息 在 集群 的 任意 节点 上 都 存放 着 ， 你 也 可 以 通过 /_cluster/state 接 口 直接 读 取 到 其 内 容 。 注 意 这 最 后 一 项 信息 ， 之 前 我 们 已 经 讲 过 Elasticsearch 怎 么 通过 简单 地 取 余 知道 一 条 数据 放 在 哪个 分 片 
里 ， 加 上 现在 集群 状态 里 又 记载 了 分 片 在 哪个 节点 上 ， 那 么 ， 整 个 集群 里 ， 任 意 节 点 都 可 以 知道 一 条 数据 在 哪个 节点 上 存储 了 。 所 以 ， 数 据 读 写 才 可 以 发 送 给 集群 里 任意 节点 。 


至 于 修改 ， 则 只 能 由 master 节 点 完成 ! 显然 ， 集 群 状态 里 大 部 分 内 容 是 极 少 变动 的 ， 唯 独 有 一 样 除 外 一 一 索引 的 映射 。 因 为 Elasticsearch 的 schema-less 特 性 ， 我 们 可 以 任意 写 入 JSON 数 据 ， 所 以 索 
引 中 随时 可 能 增加 新 的 字段 。 这 个 时 候 ， 负 责 容 纳 这 条 数据 的 主 分 片 所 在 的 节点 ， 会 暂停 写 入 操作 ， 将 字段 的 映射 结果 传递 给 master 节 点 ; master 节 点 合并 这 段 修改 到 集群 状态 里 ， 发 送 新 版 本 的 集群 状态 
到 集群 的 所 有 节点 上 。 然 后 写 入 操作 才 会 继续 。 一 般 来 说 ， 这 个 操作 是 在 一 二 十 毫秒 内 就 可 以 完成 ， 影 响 也 不 大 。 


但 是 也 有 一 些 情况 会 是 例外 ， 下 面 介绍 两 种 情况 。 


1. 批 量 新 索引 创建 


在 较 大 规模 的 ELK stack 应 用 场景 中 ， 这 是 比较 常见 的 一 个 情况 。 因 为 ELK stack 建 议 采 用 日 期 时 间作 为 索引 的 划分 方式 ， 所 以 定时 (一般 是 每 天 ) ， 会 统一 产生 一 批 新 的 索引 。 而 前 面 已 经 讲 


过 ，Elasticsearch 的 集群 状态 每 次 更 新 都 是 阻塞 式 的 发 布 到 全 部 节点 上 以 后 ， 节 点 才能 继续 后 续 处 理 。 
这 就 意味 着 ， 如 果 在 集群 负载 较 高 的 时 人 息 ， 批 量 新 建新 索引 ， 可 能 会 有 一 个 显著 的 阻塞 时 间 ， 无 法 写 入 任何 数据 。 要 等 到 全 部 节点 同步 完成 集群 状态 以 后 ， 数 据 写 入 才能 恢复 。 
不 巧 的 是 ， 中 国 使 用 的 是 北京 时 间 ，UTC+0800。 也 就 是 说 ， 默 认 的 ELK stack 新 建 索引 时 间 是 在 早上 8 点 。 这 个 时 间 点 一 般 日 志 写 入 量 已 经 上 涨 到 一 定 水 平 了 (当然 ， 晚 上 0 点 的 量 其 实 也 不 低 ) 。 


对 此 ， 可 以 通过 定时 任务 ， 每 天 在 最 低谷 的 早上 三 四 点 ， 提 前 通过 POST mapping 的 方式 ， 创 建 好 之 后 几 天 的 索引 。 就 可 以 避免 这 个 问题 了 。 


2. 过 多 字段 持续 更 新 


这 是 另 一 种 常见 的 滥用 。 在 使 用 ELK stack 处 理 访问 日 志 时 ， 为 了 查询 更 方便 ， 可 能 会 采用 logstash-filter-kv 插 件 ， 将 访问 日 志 中 的 每 个 URL 人 参数， 都 切 分 成 单独 的 字段 。 比 如 一 
个 Windex.do? uid=1234567890&action=payload” 的 URL 会 被 转换 成 如 下 JSON: 


"urlpath" : "/index.do", 
"urlargs" : { 

"uid" : "1234567890", 
"action" : "payload", 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


但 是 ， 因 为 集群 状态 是 存在 所 有 节点 的 内 存 里 的 ， 一 旦 URL 参 数 过 多 ，Elasticsearch 节 点 的 内 存 就 被 大 量 用 于 存储 字段 映射 内 容 。 这 是 一 个 极 大 的 浪费 。 如 果 磁 上 URL 参 数 的 键 内 容 本 身 一 直 在 变动 ， 
直接 撑 爆 Elasticsearch 内 存 都 是 有 可 能 的 ! 以 上 是 真实 发 生 的 事件 ， 开 发 人 员 莫 名 的 选择 将 一 个 UUID 结 果 作为 key 放 在 URL 参 数 里 。 直 接 导致 Elasticsearch 集 群 master 节 点 全 部 OOM。 


如 果 你 在 Elasticsearch 日 志 中 一 直 看 到 有 新 的 updating mapping[logstash-2015.06.01] 字 样 出 现 的 话 ， 请 郑重 考虑 一 下 自己 是 不 是 用 的 上 如 此 细 分 的 字段 列表 吧 。 


好 ， 三 秒 钟 过 去 ， 如 果 你 确定 一 定 以 及 肯定 还 要 这 么 做 ， 下 面 是 一 个 变通 的 解决 办 法 。 


nested object 


nested object 来 存放 URL 参 数 的 方法 稍微 复杂 ， 但 还 可 以 接受 。 单 从 JSON 数 据 层面 看 ， 新 方式 的 数据 结构 如 下 : 


"urlargs": [ 
{ "key": "uid", "value": "1234567890" }, 
{ "key": "action", "value": "payload" }, 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


没 错 ， 看 起 来 就 是 一 个 数组 。 但 是 JSON 数 组 在 Elasticsearch 里 是 有 两 种 处 理 方式 的 。 


如 果 直 接 写 入 数组 ，Elasticsearch 在 实际 索引 过 程 中 ， 会 把 所 有 内 容 都 平 铺 开 ， 变 成 Arrays of Inner Objects。 整 条 数据 实际 类 似 这 样 的 结构 


{ 

"urlpath" : ["/index.do" 1, 

"urlargs.key" : ["uid", "action", http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/...], 
"urlargs.value" : ["1234567890", "payload", http://www. hzcourse.com/resource/readBook?path=/openresources/teach « ebook/uncompressed/16099/OEBPS/Text/.. 


这 种 方式 最 大 的 问题 是 ， 当 你 采用 urlargs.key: “uid” AND urlargs.value: "0987654321" 语句 意图 搜索 一 个 uid=0987654321 的 请 求 时 ， 实 际 是 整个 URL 参 数 中 任意 一 处 value 为 0987654321 
的 ， 都 会 命中 。 


要 想 达 到 正确 搜索 的 目的 ， 需 要 在 写 入 数据 之 前 ， 指 定 urlargs 字 段 的 映射 类 型 为 nested object。 命 令 如 下 : 


# curl -XPOST http://127.0.0.1:9200/logstash-2015.06.01/_mapping -d '{ 
"accesslog" : { 
"properties" : { 
“urlargs" s 
"type" : "nested", 
"properties" Sof 
"key" : { "type" : "string", "index" : "not_analyzed", "doc values" : true }, 
"value" : { "type" : "string", "index" : "not_analyzed", "doc_values" : true } 


p 


这 样 ， 数 据 实际 是 类 似 这样 的 结构 : 


{ 

"urlpath" : ["/index.do"], 
] 

{ 


"urlargs.key" : ["uid"] 


r 
"urlargs.value" : ["1234567890"], 
t 

{ 

"urlargs.key" : ["action"], 
"urlargs.value" : ["payload"], 


47%, nested object 节 省 字段 映射 的 优势 对 应 的 是 它 在 使 用 的 复杂 。Query 和 Aggs 都 必须 使 


nested query 语 法 如 下 : 


专门 的 nested query 和 nested aggs 才 能 正确 读 取 到 它 。 


# curl -XPOST http://127.0.0.1:9200/logstash-2015.06.01/accesslog/_search -d ' 
{ 


"query": { 
"bool": { 
"must": [ 
{ "match": { "urlpath" : "/index.do" }}, 
{ 
"nested": { 
"path": "urlargs", 
"query": { 
"bool": { 
"must": [ 
{ "match": { "urlargs.key": "uid" }}, 
{ "match": { "urlargs.value": "1234567890" }} 


1}}} 
Eh 


nested aggs 语 法 如 下 : 


# curl -XPOST http://127.0.0.1:9200/logstash-2015.06.01/accesslog/_search -d ' 


"aggs": { 
"topnuid": { 
"nested": { 
"path": "urlargs" 
hy 
"aggs": { 
ai 
meritterte -{ 
"term": { 
"urlargs.key": "uid", 
} 
hy 
"aggs": { 
"topn": { 
"terms": { 


"field": "urlargs.value" 


} 


114 缓存 


Elasticsearch 内 针对 不 同 阶段 ， 设 计 有 不 同 的 缓存 ， 以 此 提升 数据 检索 时 的 响应 性 能 。 主 


ES 的 query DSL 在 2.0 版 本 之 前 分 为 query 和 filter 两 种 ， 很 多 检索 语法 ， 是 同时 存在 query 和 filter 里 的 ， 比 如 最 常 
体 的 检索 语法 本 身 ， 依 然 有 query 和 filter 上 下 文 的 区 别 。ES 依 靠 这 个 上 下 文 判断 ， 来 自动 决定 是 否 启 


难题 。 于 是 从 2.0 版 本 开始 ，ES 干 脆 合 并 了 filter 统 一 归 为 query。 但 是 : 


首先 ， 要 明白 query 跟 filter 的 区 别 : 


+ query 是 要 相关 性 评分 的 ，filter 不 要 ; 
“ query 结 果 无 法 缓存 ，filter 可 以 。 
所 以 ， 选 择 也 就 出 来 了 : 
“ 全 文 搜索 、 评 分 排序 ， 使 用 query; 


“是非 过 滤 ， 精 确 匹 配 ， 使 用 filter。 


下 面 分 别 讲述 这 两 个 缓存 。 


11.4.1 ” filter 缓存 


不 过 我 们 要 怎么 写 ， 才 能 让 ES 正确 判断 呢 ? 看 下 面 这 个 请 求 : 


包括 节点 层面 的 filter cache 和 分 片 层面 的 request cache。 


的 term、prefix、range 等 。 怎 么 选择 ?是 使 用 query 还 是 filter， 成 为 很 多 上 


filter cache。 


户头 疼 的 


# curl -XGET http://127.0.0.1:9200/_search -d ' 
{ 


"query": { 
"bool": { 
"must not": [ 
{ "match": { "title": "Search" } } 
l; 
"must": [ 
{ "match": { "content": "Elasticsearch" } } 


l; 
"filtere [ 


{ "term": { "status": "published" } } 
{ "range": { "publish date": { "gte": 
] 
i 
} 
p 
这 个 请 求 的 操作 如 下 : 


1) ES 先 看 到 一 个 query， 那 么 进入 query 上 下 文 。 


2) 然后 往 下 


3) 最 后 看 到 一 个 filter， 宣 布 现在 进入 filter 上 下 文 。 


4) 然后 往 下 依次 经 历 了 的 term 和 range， 都 在 filter 上 下 文 的 影响 


需要 注意 的 是 ，filter cache 是 节点 层面 的 缓存 设 


可 以 


11.4.2 shard reguest 缓 存 


Elasticsearch 还 有 另 一 个 索引 


Ki 


值 的 结果 ， 这 一 段 处 理 ， 叫 做 query| 
段 都 结束 后 才 返 回响 应 。 在 稍 后 的 Elasticsearch 日 志 记录 章节 ， 


这 是 ELK stack 聚 合 统计 场景 最 常用 


回 


后 ， 完 成 数据 的 汇聚 处 理 再 返回 给 客户 端 。 


回 


这 里 可 以 把 这 个 过 程 再 细 化 一 下 。 


此 外 ， 还 有 DFS_query then_fetch 类 型 ， 提 高 小 数据 量 时 的 精确 


回 到 reguest cache， 各 个 节点 上 的 数据 分 片 ， 会 在 处 理 完 query| 


根据 上 面 的 请 求 类 型 介绍 ， 显 然 ， 只 有 当 ? search_type=count 


不 过 ，5.0 之 前 的 版 本 中 ，request cache (当时 还 叫 query cache) 的 用 途 并 不 大 。 因 


历 bool、must not、match、must、match, 


， 每 个 节点 上 所 有 数据 在 响应 请 求 时 ， 是 共 


旨 段 ; 汇聚 到 这 份 结果 后 ， 按 照 分 值 排序 ， 得 到 一 个 全 集群 最 终 需 要 的 文档 id， 上 
我 们 可 以 看 到 Elasticsearch 对 这 两 个 阶段 ， 甚 至 都 有 分 别 的 慢 查 询 记录 。 


"2015-01-01" } } } 


内 ， 所 以 这 些 是 要 评分 的 。 


这 些 都 在 刚才 query 上 下 文 的 影响 范围 


内 ， 这 些 就 只 过 滤 ， 不 评分 了 。 


yO 


一 个 缓存 空间 的 。 当 空间 用 


， 按 照 LRU 策 略 淘汰 掉 最 冷 的 数据 。 


层面 的 缓存 ， 叫 shard reguest cache。 之 前 章节 中 说 过 ，Elasticsearch 集 群 的 任意 节点 都 可 以 接受 请 求 ， 它 会 


Elasticsearch 对 请 求 的 处 理 过 程 ， 是 有 不 同类 型 的 ， 默 认 的 叫 query_then_fetch。 在 这 种 情况 下 ， 各 数据 节点 处 理 检索 请 求 后 ， 返 回 
向 对 应 节点 发 送 一 次 文档 获取 请 求 ， 拿 到 文档 内 容 ， 这 一 段 处 理 ， 叫 做 fetch 阶 段 。 两 


度 ; query and fetch 类 型 在 有 明确 routing 时 可 以 省 略 一 个 数据 来 


的 类 型 scan 类 型 批量 获取 数据 省 略 query 阶 段 ， 在 reindex 时 就 是 使 用 这 种 类 型 。 


给 段 时 ， 将 得 到 的 本 分 片 有 关 该 请 求 的 计数 值 ， 缓 存 起 来 。 


的 时 候 ， 这 个 query cache 才 能 起 到 作用 。 


为 reguest cache 要 起 作 | 


: 分 片 数据 不 再 变动 ， 也 就 是 对 当天 的 索引 是 无 效 的 《如果 refres 
“now” 


“使 用 了 


“ 缓存 的 键 是 请 求 的 整个 JSON 字 符 囊 ， 整 个 字符 串 发 生 任何 


以 ELK stack 场 景 来 说 ，Kibana 里 几乎 所 有 的 请 求 都 是 有 @timestamp 作 为 过 滤 条 件 的 ， 而 
是 在 变动 的 。query cache 在 处 理 Kibana 发 出 的 请 求 时 ， 完 全 无 
把 请 求 原样 转发 给 各 分 片 ， 由 各 分 片 所 在 的 节点 
一 拆 分 修改 好 的 请 求 ， 这 样 就 不 


担心 JSON 串 多 个 空格 啥 的 了 。 


上 面 说 的 “ 拆 分 修改 ”是 怎么 


肯定 全 覆盖 的 。 那 么 这 个 横 跨 7 天 的 date rangequery 就 变 成 了 5 个 match_all query 加 2 个 短 时 间 的 date_range query。 现 在 你 的 仪表 盘 过 5 分 钟 


字 节 


。 而 5.0 版 本 的 一 大 特性 叫 inst 
自行 完成 请 求 的 解析 ， 


_interval 很 大 ， 那 么 在 这 个 间隔 内 倒 也 算 有 效 ) ; 


语法 的 请 求 无 法 被 缓存 ， 因 为 这 个 是 要 即时 计算 的 ; 


变动 ， 缓 存 都 无 效 。 


indices.cache.filter.size 配 置 来 设置 这 个 缓存 空间 的 大 小 ， 默 认 是 JVM 堆 的 10%， 也 可 以 设置 一 个 绝对 值 。 注 意 这 是 一 个 静态 值 ， 必 须 在 elasticsearch.yml 中 提前 配置 。 


自动 转发 给 数据 所 在 的 各 个 节点 ， 等 待 各 节点 把 各 自 的 结果 


的 ， 是 只 包含 文档 jd 和 相关 性 分 


;count 类型， 在 不 关心 文档 内 容 只 需要 计数 时 省 略 fetch 阶 段 ， 


， 还 有 几 个 先决 条 件 : 


大 多 数 是 以 最 近 N 小 时 /分 钟 这 样 的 选项 ， 也 就 是 说 ， 页 面 每 次 刷新 ， 发 出 的 请 求 JSON 里 的 时 间 过 滤 部 分 都 
ant aggregation。 解 决 了 这 个 先决 条 件 的 一 大 阻碍 。 在 之 前 的 版 本 ，Elasticsearch 接 收 到 请 求 之 后 ， 直 接 


进行 实际 的 搜索 操作 。 所 以 缓存 的 键 是 原始 JSON 串 。 而 5.0 的 重 构 后 ， 接 收 到 请 求 的 节点 先 把 请 求 的 解析 做 完 ， 发 送 到 各 节点 的 是 统 


可 事 呢 ? 比如 ， 我 们 在 Kibana 里 搜索 一 个 最 近 7 天 (@timestamp: [“now-7d” TO “now” ]) 的 数据 ，ES 就 可 以 根据 按 天 索引 的 判断 ， 知 道 从 6 天 前 到 昨天 这 5 个 索引 


动 刷新 一 次 ， 再 提交 上 来 一 次 最 近 7 天 的 请 求 ， 中 间 这 5 


个 match_all 就 完全 一 样 了 ， 直 接 从 request cache 返 回 即 可 ， 需 要 重新 请 求 的 ， 只 有 两 头 真正 在 变动 的 date_range 了 。 


遍 


注意 ，match_all 不 上 


在 本 索引 内 的 max/min 值 。 当 然 从 概念 上 如 此 理解 也 是 可 以 接受 的 。 


1 


与 filter cache 一 样 ，request cache 的 大 / 


1.4.3 field_stats 接 口 


刚才 提 到 的 field_stats 接 口 


， 也 是 新 版 Elasticsearch 的 一 个 重大 改进 。 在 Kibana 中 ， 也 同样 利 


历 倒 排 索引 ， 比 直接 查询 @timestamp: 要 快 很 多 。 判 断 覆 盖 修改 为 match_all 并 不 是 真 的 按照 索引 名 称 ， 而 是 ES 从 2.x 开 始 提供 的 field_stats 接 


\ 也 是 以 节点 级 别 控制 的 ， 配 置 项 名 为 indices.requests.cache.size， 其 默认 值 为 1%。 


这 个 接 


。 比 如 我 们 要 查看 某 索 引 的 timestamp 字 段 的 情况 。 只 需要 发 出 如 下 请 求 : 


curl -XGET "http://localhost: 9200/logstash-2016.11.25/_field_stats?fields=timestamp" 


其 响应 结果 如 下 : 
{ 
" shards": { 
~ "total": 1, 
"successful": 1, 
"failed": 0 
, 
"indices": { 
"logstash-2016.11.25": { 
"fields": { 
"timestamp": { 
"max_doc": 


"doc count": 
"density": 42, 

"sum doc_freq": 2258532, 

"sum total term freq": -1, 

"min value™: "2008-08-01T16:37:51.51 
"max value": "2013-06-02T03:23:11.59. 
"is searchable": "true", 
"is_aggregatable": "true" 


蔡 换 了 原先 index pattern 中 要 用 户 手动 指定 时 间 范 围 的 


可 以 直接 获取 到 @timestamp 


。 这 里 给 大 家 单独 介绍 一 下 该 接 


32", 
32", 


本 索引 中 ，timestamp 字 段 的 最 大 值 、 最 小 值 ， 以 及 是 否 可 以 聚合 统计 ， 都 立刻 就 给 出 来 了 。 


有 些 读者 可 能 觉得 这 个 例子 奇怪 ， 索 引 名 上 面 都 写 了 日 期 了 啊 ? 


大 家 要 记 住 一 个 事实 ， 索 引 名 是 人 为 设 定 的 ，Elasticsearch 作 为 底层 软件 ， 并 不 能 限制 你 取 别 的 名 字 ， 所 以 它 需 要 有 一 个 可 以 真正 反映 数据 事实 的 接口 。 


11.5 “字段 数据 


字段 数据 (fielddata) ， 在 Lucene 中 又 叫 uninverted index。 我 们 都 知道 ， 搜 索引 殉 会 使 用 倒 排 索引 (inverted index) 来 映射 单词 到 文档 的 ID 号 。 同 时 ， 为 了 提供 对 文档 内 容 的 聚合 ，Lucene 还 可 
以 在 运行 时 将 每 个 字段 的 单词 以 字典 序 排 成 另 一 个 uninverted index， 可 以 大 大 加 速 计算 性 能 。 


作为 一 个 加 速 性 能 的 方式 ，fielddata 当 然 是 被 全 部 加 载 在 内 存 的 时 候 最 为 有 效 。 这 也 是 Elasticsearch 默 认 的 运行 设置 。 但 是 ， 内 存 是 有 限 的 ， 所 以 Elasticsearch 同 时 也 需要 提供 对 fielddata 内 存 的 限额 
方式 ， 如 下 所 示 : 


:indices.fielddata.cache.size 节 点 用 于 fielddata 的 最 大 内 存 ， 如 果 fielddata 达 到 该 阔 值 ， 就 会 把 旧 数 据 交 换 出 去 。 该 参数 可 以 设置 百分比 或 者 绝对 值 。 默 认 设置 是 不 限制 ， 所 以 强烈 建议 设置 该 值 ， 比 如 
10%。 


“ indices.fielddata.cache.exbire 进 入 fielddata 内 存 中 的 数据 多 久 自动 过 期 。 注 意 ， 因 为 Elasticsearch 的 fielddata 本 身 是 一 种 数据 结构 ， 而 不 是 简单 的 缓存 ， 所 以 过 期 删除 fielddata 是 一 个 非常 消耗 资源 的 操作 。 
Elasticsearch 官 方 在 文档 中 特意 说 明 ， 这 个 参数 绝对 绝对 不 要 设置 ! 


11.5.1 Circuit Breaker 


Elasticsearch 在 total、fielddata、request 三 个 层面 上 都 设计 有 Circuit Breaker 以 保护 进程 不 至 于 发 生 OOM 事 件 。 在 fielddata 层 面 ， 其 设置 为 : 


+ indices.breaker.fielddata.limit 默 认 是 JVM 堆 内 存 大 小 的 60%。 注 意 ， 为 了 让 设置 正常 发 挥 作用 ， 如 果 之 前 设置 过 indices.fielddata.cache.size 的 ， 一 定 要 确保 indices.breaker.fielddata.limit 的 值 大 于 
indices.fielddata.cache.size 的 值 。 否 则 的 话 ，fielddata 大 小 一 到 limit 阅 值 就 报错 ， 就 永远 道 不 了 size 阅 值 ， 无 法 触发 对 旧 数 据 的 交换 任务 了 。 


11.5.2 doc values 


但 是 相 比 较 集群 庞大 的 数据 量 ， 内 存 本 身 是 远 远 不 够 的 。 为 了 解决 这 个 问题 ，Elasticsearch 引 入 了 另 一 个 特性 ， 可 以 对 精确 索引 的 字段 ， 指 定 fielddata 的 存储 方式 。 这 个 配置 项 吊 : doc values, 


所 谓 doc values， 其 实 就 是 在 Elasticsearch 将 数据 写 入 索引 的 时 候 ， 提 前 生成 好 fielddata 内 容 ， 并 记录 到 磁盘 上 。 因 为 fielddata 数 据 是 顺序 读 写 的 ， 所 以 即使 在 磁盘 上 ， 通 过 文件 系统 层 的 缓存 ， 也 可 
以 获得 相当 不 错 的 性 能 。 


注意 ， 因 为 doc values 是 在 数据 写 入 时 即 生成 内 容 ， 所 以 ， 它 只 能 应 用 在 精准 索引 的 字段 上 ， 因 为 索引 进程 没 法 知道 后 续 会 有 什么 分 词 器 生成 的 结果 。 


由 于 在 Elastic Stack 场 景 中 ，doc values 的 使 用 极其 频繁 ， 到 Elasticsearch 5.0 以 后 ， 这 两 者 的 区 别 被 彻底 强化 成 两 个 不 同 字段 类 型 : text 和 keyword 


"myfieldname": { 
"type": "text" 
} 


等 同 于 过 去 的 


"myfieldname": { 
"type": "string", 
"fielddata": false 

} 


而 

"myfieldname": { 
"type": "keyword" 

} 

等 同 于 过 去 的 

"myfieldname": { 
"type": tring", 
"index": "not_analyzed", 


"doc_values": true 


} 


也 就 是 说 ， 以 后 的 用 户 已 经 不 太 需要 在 意 fielddata 的 问题 了 。 不 过 依然 有 少数 情况 ， 当 你 需要 对 分 词 字段 做 聚合 统计 ， 可 以 在 自己 接受 的 范围 内 ， 开 启 如 下 这 个 特性 : 


{ 
"mappings": { 
"my type": { 
"properties": { 
"message": { 
"type": "text", 
"fielddata": true, 
"fielddata_frequency filter": { 
"min": 0.1, 
"max": 1.0, 
"min_segment_size": 500 


} 


你 可 以 看 到 在 上 面 加 了 一 段 fielddata_frequency filter 配 置 ， 这 个 配置 是 segment 级 别 的 。 上 面 示例 的 意思 是 : 只 有 这 个 segment 里 的 文档 数量 超过 500 个 ， 而 且 含 有 该 字段 的 文档 数量 占 该 Segment 


里 的 文档 数量 比例 超过 10% 时 ， 才 加 载 这 个 segment 的 fielddata。 


下 面 是 一 个 可 能 有 用 的 对 分 词 字段 做 聚合 的 示例 : 


curl -XPOST 'http://localhost: 9200/logstash-2016.07.18/logs/_search?pretty&terminate_after=10000ssize=0' -d ' 


"terms": { 
"field": "punct" 
hy 
"aggs": { 
"keyword": { 
"significant_terms": { 
"size": 2, 
"field": "message" 


"hit": { 
"top hits": { 
™ source": { 
"include": [ "message" ] 


} 
p 


这 个 示例 可 以 对 经 过 logstash-filter-punct 插 件 处 理 过 的 数据 ， 获 取 每 种 punct 类 型 日 志 的 关键 词 和 对 应 的 代表 性 日 志 原 文 。 其 效果 类 似 于 Splunk 的 事件 模式 功能 ， 如 图 11-1 所 示 。 


Search & Reporting 


Q 新 搜索 另存 为 KA 


index="_internal” | 


所 有 时 间 v | Q 


v 


vv 13,365 个 事件 (16/05/31 18:22:05.000 之 前 ) No Event Sampling v ee 土 9 详细 模式 


3.63K 


<DIR> INFO Metrics - group=queue, name=typingqueue, max_size_kb=500, current_size_kb=0, current_size=0, largest_size=4, smallest 查看 事件 
Sizes0 


事件 (13365) ax 统计 信息 aant 


19 模式 基于 13,365 个 事件 示例 


wk 
<ii R> INFO Metrics - group=per_sourcetype_thruput, series*"splunkd_ui_access”, kbps=0.331398, eps*0,741929, kb=10.273438, ev=2 index="_internal” pipeline 
3, avg_age=0.739130, max_age=1 另存 为 事件 类 型 。 创建 告警 


127.0.0.1 - admin [< 时 间 融 >] "GET /zh-CN/splunkd/_raw/services/messages?output_mode=|son&sort_key=timeCreated_epochSecs&sort 包括 关键 字 
dirsdesc&count* 1000&_* 1464689338995 HTTP/1.1" 200 296 "http://localhost:8000/zh-CN/app/search/search?q*search%20index%3 pipeline 
0%22_internal%22%20%7C%20typelearner&display page search. mode=verbose&dispatch.sample_ratio= | &earliest=Slatest=&display.pag 


对 > INFO Metrics - group=deploy-server, name=clients, phonehome, nReceived=0 


<BR> INFO Metrics - group=thruput, name=thruput, instantaneous_kbps= 1.143293, instantaneous_eps=3, 709647, average_kbps=1.07 
3732, total_k_processed=§758.000000, kb=35.442383, ev=115.000000, load_average=2.088379 


jim R> INFO Metrics - group=tpool, name=indexertpool, qsize=0, workers=2, qwork_units=0 


<8¢ 19 R> INFO Metrics - group=tailingprocessor, name=tailreader0, current_queve_size=0, max_queve_size=2, files_queved=18, new_files 
~queued*0, fd_cache_size=2 


<BFi R> INFO Metrics - group=search_health_metrics, name=compute_search_quota, compute_search_quota_max_ms*3, compute_sear 
ch_quota_mean_ms=2.000000 


<2 (9 M> INFO Metrics - group=search_concurrency, user=admin, active_hist_searches=1, active_realtime_searches=0 


< 时 间 骆 > INFO Metrics - aroun=moool. max used interval=26649. max used=359383. ava rsv=440. canacitv=536870912. used=2738. reo 


图 11-1 事件 模式 功能 


11.6 curator 工 具 


如 果 经 过 之 前 章节 的 一 系列 优化 之 后 ， 数 据 确实 超过 了 和 集群 能 承载 的 能 力 ， 除 了 拆 分 集群 以 外 ， 最 后 就 只 剩 下 一 个 办 法 了 : 清除 废旧 索引 。 


为 了 更 加 方便 地 做 清除 数据 ， 合 并 segment、 备 份 恢复 等 管理 任务 ，Elasticsearch 在 提供 相关 API 的 同时 ， 另 外 准备 了 一 个 命令 行 工 具 ， 叫 curator。curator 是 Python 程序 ， 可 以 直接 通过 pypi 库 安 
装 : 


#pip install elasticsearch-curator 


Os 是 elasticsearch-curator 不 是 curator。PyPi 原 先 就 有 另 一 个 项 目 叫 这 个 名 字 。 


11.6.1 参数 介绍 


和 ELK stack 里 其 他 组 件 一 样 ，curator 也 是 被 Elastic.co 收 购 的 原 开源 社区 周边 。 收 编 之 后 同样 进行 了 一 次 重 构 ， 命 令 行 参数 从 单字 母 风格 改 成 了 长 单词 风格 。 而 在 最 新 的 4.2 版 中 ， 更 进一步 支持 了 将 命 


个 命 今 过 


[Ta 


令 参 数 写成 YAML 配 置 文件 。 
说 ， 继 续 使 


前 安装 完成 后 会 有 两 可 用 。 分 别 是 读 取 配置 文件 的 curator 和 继续 读 取 命令 行 参数 的 curator_cli。 配 置 文件 可 以 通 : 
curator_cli 也 足够 了 。 下 面 是 新 版 curator_cli 的 可 用 参数 : 


灵活 的 filter 和 action 做 到 复杂 逻辑 。 不 过 一 般 来 


Usage: curator [OPTIONS 


Options 包 括 : 


- config PATH Path to confiaguration file. Default: ~/.curator/curator.yml 


TEXT Elasticsearch host. 


host 


-url_prefix TEXT Elasticsearch http url prefix. 


ort 


INTEGER Elasticsearch port. 


+ -use_ssl Connect to Elasticsearch through SSL. 


http_auth TEXT Use Basic Authentication ex: user:pass 


+ -timeout INTEGER Connection timeout in seconds. 
+ --master-only Only operate on elected master node. 
+ --dry-run Do not perform any changes. 


+ --debug Debug mode 


loglevel TEXT Log level 


logfile TEXT log file 
ogformat 


TEXT Log output format [default |logstash]. 


+ -version Show the version and exit. 


elp Show this message and exit. 


Commands 包 括 : 


= 


location Shard Routing Allocation 


+ close Close indices 
+ delete_indices Delete indices 
+ delete_snapshots Delete snapshots 
+ forcemerge forceMerge index/shard segments 
‘open Open indices 
' replicas Change replica count 
+ show_indices Show indices 
+ show_snapshots 


Show snapshots 


+ snapshot Snapshot indices 


针对 具体 的 Command， 还 可 以 继续 使 


--help 查 看 该 子 命令 的 帮助 。 比 如 查看 close 子 命令 的 帮助 ， 输 入 curator close--help， 结 果 如 下 : 


COMMAND [ARGS]http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


Usage: curator close [OPTIONS] COMMAND [ARGS]http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


Close indices 


Options: 

--help Show this message and exit. 
Commands : 

indices Index selection. 


11.6.2 ”常用 示例 


在 使 用 1.4.0 以 上 版 本 的 Elasticsearch 前 提 下 ，curator 曾 经 主要 的 一 个 子 命 令 bloom 已 经 不 再 需要 使 用 。 所 以 ， 目 前 最 常用 的 三 个 子 命令 ， 分 别 是 close、delete 和 forcemerge， 示 例如 下 : 

curator --timeout 36000 --host 10.0.0.100 delete indices --older-than 5 --time-unit days --timestring '%Y.%m.%d' --prefix logstash-mweibo-nginx- 

curator --timeout 36000 --host 10.0.0.100 delete indices --older-than 10 --time-unit days --timestring '%Y.%m.%d' --prefix logstash-mweibo-client- --exclude 'logstash-mweibo-cl 
curator --timeout 36000 --host 10.0.0.100 delete indices --older-than 30 --time-unit days --timestring '%Y.%m.%d' --regex '*logstash-mweibo-\d+' 

curator --timeout 36000 --host 10.0.0.100 close indices --older-than 7 --time-unit days --timestring '%Y.%m.%d' --prefix logstash- 

curator --timeout 36000 --host 10.0.0.100 forcemerge --max_num_segments 1 indices--older-than 1 --newer-than 7 --time-unit days --timestring '%Y.%m.%d' --prefixogstash- 


这 一 顿 任务 ,结果 是 : 


天 前 的 logstash-* 索 引 都 暂时 关闭 不 用 ; 最 后 对 所 有 非 当日 日 志 做 segment 合 并 优化 。 
11.7 “profiler 调 试 接口 
profilerElasticsearch 5.0 的 一 个 新 接口 。 通 过 这 个 功能 ， 可 以 看 到 一 个 搜索 聚合 请 求 ， 是 如 何 拆 分 成 底层 的 Lucene 请 求 ， 并 且 显 示 每 部 分 的 耗 时 情况 。 启 上 


logstash-mweibo-nginx-yyyy.mm.dd 索 引 保存 最 近 5 天 ，logstash-mweibo-client-yyyy.mm.dd 保 存 最 近 10 天 ，logstash-mweibo-yyyy.mm.dd 索 引 保存 最 近 30 天 ; 且 所 有 七 


profiler 的 方式 很 简单 ， 直 接 在 请 求 里 加 


一 行 即 可 : 


curl -XPOST 'http://localhost:9200/_search' -d '{ 
"profile": true, 


"aggs": { http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... } 
p 


可 以 看 到 其 中 对 query 和 aggs 部 分 的 返回 是 不 太一 样 的 。 


query 部 分 包括 collectors、rewrite 和 query 部 分 。 对 复杂 的 query，profiler 会 将 query 拆 分 成 多 个 基础 的 TermQuery， 然 后 每 个 TermQuery 再 显示 各 


的 分 阶段 耗 时 ， 如 下 所 示 : 


"breakdown": { 
"score": 51306, 
"score count": 4, 
"build scorer": 2935582, 
"build scorer count": 1, 
"match": 0, 
"match count": 0, 
"create weight": 919297, 
"create weight count": 1, 
"next_doc": 53876, 
"next doc count": 5, 
"advance": 0, 
"advance_count": 0 


aggs 部 分 的 调试 输出 如 下 : 


"time": "1124.864392ms", 
"breakdown": { 

"reduce": 0, 
"reduce count": 0, 
"build aggregation": 1394, 
"build_aggregation_count": 150, 
"“initialise": 2883, 
"initialize count": 150, 
"collect": 1124860115, 
"collect_count": 900 


我 们 可 以 很 明显 地 看 到 聚合 统计 在 初始 化 阶段 、 收 集 阶段 、 构 建 阶段 、 汇 总 阶段 分 别 花 了 多 少时 间 ， 遍 历 了 多 少数 据 。 


Os 其 中 reduce 阶 段 还 没 实现 完毕 ， 所 有 都 是 0。 因 为 目前 profiler 只 能 在 shard 级 别 上 做 统计 。 


collect 阶 段 的 耗 时 ， 有 助 于 我 们 调整 对 应 aggs 的 collect_mode 参 数 选择 。 目 前 Elasticsearch 支 持 breadth_first 和 depth_first 两 种 方式 。 


initialise 阶 段 的 耗 时 ， 有 助 于 我 们 调整 对 应 aggs 的 execution_hint 参 数 选 择 。 目 前 Elasticsearch 支 持 map、global_ordinals low_cardinality、global_ordinals 和 global_ordinals_hash 四 种 选择 。 在 计 
算 离散 度 比 较 大 的 字段 统计 值 时 ， 适 当 调 整 该 参数 ， 有 益 于 节省 内 存 和 提高 计算 速度 。 


Ox 对 高 离散 度 字段 值 统计 性 能 很 关注 的 读者 ， 可 以 关注 https://github.com/elastic/elasticsearch/pull/21626 这 条 记录 的 进展 。 


Elastic.co 的 X-Pack 免 费 基础 版 在 最 新 的 5.1.1 添 加 了 对 profiler 输 出 结果 的 可 视 化 功能 。 通 过 免费 申请 并 安装 license 后 ， 可 以 在 Kibana 的 Console 应 上 


看 到 对 应 的 扩展 功能 。 效 果 如 图 11-1 所 示 。 


Dev Tools 


Console Search Profiler 


Query Profile Aggregation Profile data 
[94Dq9uKuQSIITRnIYWYHKA][2] 


i | Type 
Index: data Cumulative Time: 30.290s J) gooleanQuery 
Description 
> [94Dq9uKuQsilTRnIYwYHKA][2] p 6.176s pm hour:[-9223372036854775808 TO 
9223372036854775807] (title:fast 
Type Self Total % Time title:jumping title:spider title:eats 


Time Time title:small title:mice) 
v BooleanQuery metric:[5 TO 5] node:{1 TO 1] query:{0 1... 3.0s 6.2s 100.00% 


DENDU AWN e 


Total Time 


v BooleanQuery hour:{-9223372036854775808 TO 9223372036... 1.75 2.7s 42.99% 2.6555 


“ter hour:[-9223372036854775808 TO 9223372036. 949.0ms 949.0ms 15.37% 


ms": { 
“query”: [0,1,2] Self Time 


> BooleanQuery _ title-fast title:jumping title:spider ti 0.1ms  1.6ms 0.03% A0 
.705s 


hour:{-9223372036854775808 TO 9223372036... 395.8ms 395.8ms {641% 

“watt "Quick brown metric{s TO 5} 75.6ms 75.6ms [/ 122% | Timing Breakdown 
, ; node-{1 TO 1] 49.5ms 49.5ms 「 0.80% | advance 1.3s EI 
"match": { query-{0 12) 22.5ms 22.5ms [026% | score 13s { 455%) 
et "Quick bro v BooleanQuery _ title:quick title:brown title:fox 0.2ms 3.1ms (005%) create_weight 1.6ms ("01% ) 
fuzziness": 2 Tenuen acquit Same’ Dame SOI build_scorer 374.8us [0.0% ) 
TermQuery title:brown 0.3ms 0.3ms 0.00% next_doc 0.0ns [0.0% ) 


“boot”: { f TermQuery  title:fox 0.3ms 0.3ms 0.00% match 0.0ns | 0.0% — 
“should”: — a 


> BooleanQuery MatchNoDocsQuery("empty BooleanQuery’) M.. 0.1ms 0.1ms 0.00% 
"range": { 一 
“hour”: 


> [94Dq9uKuQsilTRnIYwYHKA][0] 6.164s I) 


Self Total 
Type i % Time 
Time Time 
v BooleanQuery metric{s TO 5] node:[1 TO 1] query-{0 1 2.95 6.2s 100.00% 
v BooleanQuery — hour-[-9223372036854775808 TO 9223372036... 1.8s 2.7s 44.09% | 


hour{-9223372036854775808 TO 9223372036 965.4ms 965.4ms | 15.66% 


11-2 profiler TRAL 


第 12 章 “测试 和 扩展 方案 


和 做 任何 系统 的 运 维 工作 一 样 ， 对 Elasticsearch 系 统 ， 我 们 同样 需要 掌握 系统 的 性 能 基线 、 扩 展 能 力 和 方案 ， 乃 至 安全 管理 ， 等 等 。 本 章 讲 述 的 内 容 包括 : 测试 方案 ， 对 Elasticsearch 分 布 式 系 统 的 性 
能 基线 测试 方案 设计 。 多 集群 互联 ， 在 单 集群 扩展 能 力 不 足 ， 或 者 场景 不 适宜 的 情况 下 ， 如 何 通过 tribe 节 点 同时 访问 不 同 集群 的 方法 。puppet-elasticsearch 模 块 的 使 用 ， 包 括 使 用 Puppet 配 置 管理 系统 ， 
快速 部 署 Elasticsearch 集 群 。 计 划 内 停机 升级 的 操作 流程 。Shield 权 限 管理 ，shield 的 基本 用 法 。 别 名 的 应 用 ，Elasticsearch 中 的 alias 功 能 ， 索 引 的 无 颖 切换 和 按 业 务 过 滤 别 名 都 是 日 常 非常 有 用 的 功能 。 


12.1 测试 方案 


在 体验 完 Elasticsearch 便 捷 的 操作 后 ， 下 一 步 一 定 会 碰 到 的 问题 是 : 数据 写 入 变 慢 了 ， 机 器 变 卡 了 ， 是 需要 做 优化 呢 ? 还 是 需要 扩容 设备 了 ? 如果 做 扩容 ， 索 引 的 分 片 和 副本 设置 多 少 才 合适 ”如 果 做 
优化 ， 某 个 参数 能 造成 什么 样 的 影响 ? 


而 Elasticsearch 集 群 性 能 ， 受 服务 器 硬件 、 数 据 结构 和 长 度 、 请 求 接口 复杂 度 等 各 种 环节 影响 颇 大 。 这 些 问 题 ， 都 需要 有 一 个 标准 的 测试 流程 给 出 答案 。 


由 于 Elasticsearch 是 近乎 线性 扩展 的 分 布 式 系统 ， 所 以 对 上 述 需 求 我 们 都 可 以 总 结 成 同一 个 测试 模式 : 


1) 使 用 和 线 上 集群 相同 硬件 配置 的 服务 器 搭建 一 个 单 节 点 集群 。 


2) 使 用 和 线 上 集群 相同 的 映射 创建 一 个 0 副本 ，1 分 片 的 测试 索引 。 


3) 使 用 和 线 上 集群 相同 的 数据 写 入 进行 压 测 。 


4) 观察 写 入 性 能 ， 或 者 运行 查询 请 求 观察 搜索 聚合 性 能 。 


5) 持续 压 测 数 小 时 ， 使 用 监控 系统 记录 eps、requesttime、fielddata cache, GC count 等 关键 数据 。 


=I 


试 完 成 后 ， 根 据 监控 系统 数据 ， 确 定单 分 片 的 性 能 拐点 ， 或 者 适合 自己 预期 值 的 临界 点 。 这 个 数据 ， 就 是 一 个 基准 数据 。 之 后 的 扩容 计划 ， 都 可 以 以 这 个 基准 单位 进行 。 


需要 注意 的 是 ， 测 试 是 以 分 片 为 单位 的 ， 在 实际 使 用 中 ， 因 为 主 分 片 和 副本 分 片 都 是 在 各 自 节点 做 indexing 和 merge 操 作 ， 需 要 消耗 同样 的 写 入 性 能 。 所 以 ， 实 际 集群 的 容量 预 估 中 ， 要 考虑 副本 数 的 
影响 。 也 就 是 说 ， 假 如 你 在 基准 测试 中 得 到 单机 写 入 性 能 在 10000eps， 那 么 开启 一 个 副本 后 所 能 达到 的 eps 就 只 有 5000 了 。 还 想 写 入 10000eps 的 话 ， 就 需要 加 一 倍 机 器 。 


另外 ， 测 试 中 我 们 使 用 的 配置 都 尽量 贴 合 当前 现状 。 事 实 上 ， 很 多 配置 可 能 其 实 并 不 合理 。 在 确定 基准 线 并 开始 扩容 之 前 ， 还 是 要 认真 调节 配置 ， 审 核 请 求 使 用 的 接口 是 否 最 优 ， 然 后 反复 测试 。 然 后 
取 一 个 最 终 的 基准 值 。 


审核 请 求 ， 更 是 一 个 长 期 的 过 程 ， 就 像 DBA 永 远 需要 关注 慢 查询 一 样 。Elasticsearch 的 慢 查 询 请 求 处 理 ， 请 阅读 第 14 章 。 


esrally 测 试 工 


esrally 是 Elastic.co 开 源 的 专门 做 Elasticsearch 压 测 的 工具 。 我 们 在 官网 上 看 到 的 nightly benchmark 结 果 就 是 用 这 个 工具 每 晚 运行 生成 的 报告 。 用 这 个 工具 ， 可 以 很 方便 地 验证 自己 的 代码 修改 、 配 置 
调整 对 性 能 的 影响 效果 。 


esrally 依 赖 Python 3.4+, ， 所 以 需要 先 安装 好 Python 3.5。 然 后 直接 用 pip3 install esrally 命 令 即 可 。 


被 压 测 的 Elasticsearch 有 两 种 来 源 : 
“ 本 机 有 gradle 工 具 的 ， 可 以 从 最 新 的 GitHub master 代 码 编译 。 


“ 没有 gradle 工 具 的 ， 可 以 按 官方 提供 的 标签 ， 下 载 对 应 版 本 的 二 进 制 分 发 包 。 


esrally 在 压 测 完毕 后 ， 可 以 把 指标 数据 写 入 到 另 一 个 Elasticsearch (ES) 索引 中 ， 可 以 很 方便 地 用 Kibana 做 图 表 可 视 化 。 这 就 需要 另外 配置 一 下 ~/.rally/rally.ini 里 reporting 部 分 的 参数 : 


[reporting] 

datastore.type = elasticsearch 
datastore.host = localhost 
datastore.port = 9200 
datastore.secure = False 
datastore.user = 
datastore.password = 


不 用 担心 这 个 ES 会 跟 一 会 儿 压 测 运行 的 ES 冲突 ， 因 为 压 测 启 动 的 ES 会 监听 在 其 他 端口 上 。 


我 们 先 简单 测试 一 下 标准 的 运行 : 


/opt/local/Library/Frameworks/Python. framework/Versions/3.5/bin/esrally --pipeline=from-distribution --distribution-version=5.0.0 


默认 情况 下 压 测 采 用 的 数据 集 叫 geonames， 是 一 个 2.8GB 大 的 JSON 数 据 。ES 也 提供 了 一 系列 其 他 类 型 的 压 测 数据 集 。 如 果 要 切换 数据 集 ， 采 用 --track 参 数 : 


/opt/local/Library/Frameworks/Python. framework/Versions/3.5/bin/esrally --pipeline=from-distribution --distribution-version=5.0.0 --track=geonames 


重复 运行 的 时 候 可 以 修改 ~/.rally/rally.ini 里 的 tracks[default.u 中 ， 改 为 第 一 次 运行 时 下 载 的 地 址 : ~/.rally/benchmarks/tracks/default。 然 后 采用 离线 参数 重复 运行 : 


/opt/local/Library/Frameworks/Python. framework/Versions/3.5/bin/esrally --offline --pipeline=from-distribution --distribution-version=5.0.0 --track=geonames 


静 静 等 待 程序 运行 完毕 ， 就 会 给 出 一 个 漂亮 的 输出 结果 了 。 


1. 调 整 压 测 任务 


默认 一 次 压 测 运行 会 是 一 个 很 漫长 的 时 间 ， 如 果 你 只 关心 部 分 的 性 能 ， 比 如 只 关心 写 入 ， 不 关心 搜索 ， 其 实 可 以 自己 去 修改 一 下 track 的 任务 定义 。 


track 的 定义 文件 在 ~/.rally/benchmarks/tracks/default/geonames/track.json。 如 果 你 改动 较 大 ， 建 议 直 接 新 建 一 个 track 目 录 ， 比 如 叫 mytest/track.json。 


对 照 geonames 里 的 定义 ， 一 个 track 包 括 以 下 部 分 : 
> meta: 定义 数据 来 源 URL。 
“ indices: 定义 索引 名 称 、 索 引 mapping 的 文件 位 置 、 数 据 的 存放 位 置 和 校 验 信息 。 


+ operations: 定义 一 个 个 操作 的 名 称 、 类 型 、 索 引 和 请 求 参 数 。 如 果 操 作 类 型 是 index， 可 用 的 索引 参数 有 : client 并 发 量 、bulk 大 小 、 是 否 强制 metge 等 ; 如果 操作 类 型 是 search， 可 用 的 请 求 参数 就 是 一 
个 queries 数 组 ， 按 序 放 好 一 个 个 queryDSL。 


- challenges: 定义 好 名 称 和 调用 哪些 operation， 调 用 顺序 如 何 。 


最 后 运行 命令 的 时 候 通过 --challenge= 参 数 来 指定 执行 哪个 任务 。 比 如 我 们 只 关心 写 入 ， 不 关心 搜索 ， 打 开 track.json 可 以 看 到 有 这 么 几 个 challenges: 


"challenges": [ 


"name": "append-no-conflicts", 

"description": "", 

"schedule": [ 
"index-append-default-settings", 
"stats", 

"search" 


"name": "append-fast-no-conflicts", 
"description": "", 
"schedule": [ 
"index-append-fast-settings" 
] 
ty 


我 们 就 知道 了 ， 默 认 的 append-no-conflicts 是 要 测 完 写 入 再 测 搜索 的 ， 而 append-fast-no-contflicts 是 只 测 写 入 的 。 那 么 我 们 这 么 运行 就 行 : 


/opt/local/Library/Frameworks/Python. framework/Versions/3.5/bin/esrally --offline --pipeline=from-distribution --distribution-version=5.0.0 --track=geonames --challenge=append- 


2. 调 整 压 测 数据 


如 果 要 用 自己 的 数据 集 呢 ， 也 一 样 是 在 自己 的 track.json 里 定义 ， 比 如 : 


meta": { 
"data-url": "/Users/raochenlin/.rally/benchmarks/data/splunklog/1468766825_10.json.bz2" 
tr 


"indices": [ 
{ 
"name": "splunklog", 
"types": [ 
{ 
"name": "type", 
"mapping": "mappings.json", 
"documents": "1468766825_10.json.bz2", 
"document-count": 924645, 


"compressed-bytes": 19149532, 
"uncompressed-bytes": 938012996 


这 里 就 是 用 一 份 splunkd 的 internal 日 志 ，JSON 导 出 。 字 节 数 大 小 为 938012996， 压 缩 后 为 19149532。 


12.2 ”多 集群 互联 


当 Elasticsearch 集 群发 展 到 一 定 规模 ， 单 集群 不 足以 应 对 庞大 的 在 线索 引 量 级 ， 或 者 由 于 业务 隔离 需求 ， 都 有 可 能 划分 成 多 个 集群 。 这 时 候 ， 另 一 个 问题 就 出 来 了 : 可 能 其 中 有 一 部 分 数据 ， 被 分 割 在 


两 个 集群 里 ， 但 是 还 是 需要 一 起 使 用 的 。 如 果 是 自己 写 程序 ， 当 然 可 以 初始 化 两 个 对 象 ， 分 别 连 接 两 个 集群 ， 得 到 结果 集 后 再 自行 合并 。 但 是 如 果 


这 时 候 ， 就 到 Elasticsearch 中 一 个 特殊 的 角色 : tribe 节 点 。 


tribe 节 点 只 需要 提供 集群 自动 发 现 方面 的 配置 ， 连 接 上 多 个 集群 后 ， 对 外 提供 只 读 功 能 。elasticsearch.yml 配 置 示例 如 下 : 


ELK stack，Kibana 可 不 支持 同时 连接 两 个 集群 地 址 ， 


tribe: 
1002: 
cluster.name: es1002 
discovery.zen.ping.timeout: 100s 
discovery.zen.ping.multicast.enabled: false 
discovery.zen.ping.unicast.hosts: ["10.19.0.22","10.19.0.24",10.19.0.21"] 
1003: 
cluster.name: es1003 
discovery.zen.ping.timeout: 100s 
discovery.zen.ping.multicast.enabled: false 
discovery.zen.ping.unicast.hosts: ["10.19.0.97","10.19.0.98","10.19.0.9 
9","10.19.0.100"] 
blocks: 


write: true 
metadata: true 
on_conflict: prefer_1003 


注意 这 里 的 on_conflict 设 置 ， 当 多 个 集群 内 ， 索 引 名 称 有 冲突 的 时 候 ，tribe 节 点 默认 会 把 请 求 轮 询 转发 到 各 个 集群 上 ， 这 显然 是 不 可 以 的 。 所 以 可 以 设置 一 个 优先 级 ， 在 索引 名 冲突 的 时 候 ， 偏 向 于 转 


以 tribe 配 置 启动 的 Elasticsearch 服 务 ， 其 日 志 输入 如 下 : 


2015-06-18 18:05:51,983] [INFO ] [node 
pid[12846], build[5e38401/2015-04-09T13: 41:352] 
2015-06-18 18:05:51,984] [INFO ] [node 


2015-06-18 18:05:51,990] [INFO ] [plugins 
tes [] 


1.5.1], pid[12846], build[5e38401/2015-04-09T13:41:352] 
2015-06-18 18:05:54,891] [INFO ] [node 


2015-06-18 18:05:54,891] [INFO ] [plugins 
sites [] 
2015-06-18 18:05:55,654] [INFO ] [node 
lized 
2015-06-18 18:05:55,655] [INFO ] [node 
5.1], pid[12846], build[5e38401/2015-04-09T13:41:352 
2015-06-18 18:05:55,655] [INFO ] [node 


2015-06-18 18:05:55, 656] [INFO ] [plugins 
sites [] 
2015-06-18 18:05:56,275] [INFO ] [node 
2015-06-18 18:05:56,285] [INFO ] [node 
2015-06-18 18:05:56,286] [INFO ] [node 
2015-06-18 18:05:56,486] [INFO transport 


2015-06-18 18:05:56, 499] [INFO discovery 
Oewo-L2fR3y2xsgpsol 40g 
2015-06-18 18:05:56,530] [INFO ] [node 


2015-06-18 18:05:56,603] [INFO transport 


Manslaughter] version[1.5.1], 


Manslaughter] initial-izing 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 
Manslaughter] loaded [], si 


2015-06-18 18:05:54,891] [INFO node Manslaughter/1003] version 


Manslaughter/1003] initia 
lizing http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 
Manslaughter/1003] loaded [], 


Manslaughter/1003] initia 
Manslaughter/1002] version[1. 


Manslaughter/1002] initia 
lizing http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 
Manslaughter/1002] loaded [], 


Manslaughter/1002] initialized 
Manslaughter] initialized 

Manslaughter] starting http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/T 
Manslaughter] bound_address 
{inet [/0:0:0:0:0:0:0:0:9301]}, publish_address {inet /10.19.0.100: z 
Manslaughter] elasticsearch/ 


9301 


Manslaughter/1003] starting 

http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 
Manslaughter/1003] bound_ 

address {inet[/0:0:0:0:0:0:0:0:9302]}, publish_address {inet [/10.19.0.100: 9302] } 


m1-cDaFTSoqqyC2iiQhECA 
2015-06-18 18:06:26,610 
2015-06-18 18:06:26,611 


2015-06-18 18:06:26,674 
address {inet[/0:0:0:0:0: 
2015-06-18 18:06:26,676 
4FPiRPh7TFyBk-BaPc_TLg 

2015-06-18 18:06:56,677 
2015-06-18 18:06:56,677 
2015-06-18 18:07:37,266 


2015-06-18 18:07:37,382 
2015-06-18 18:07:37,393 
2015-06-18 18:08:07, 316 
2015-06-18 18:08:07,350 
settings parent: [PARENT, 
2015-06-18 18:08:07,353 


2015-06-18 18:08:07,358 


2015-06-18 18:05:56, 609] [INFO discovery 


master [10.19.0.97] [jnA-rt: 
node [[10.19.0.73] [_S8ylzl0TvéNyp1YoMRNGQ] [esnode073 


index [logstash-mweibo-vip-2015.06.15]:-- 


INFO ] [node 
INFO ] [node 


INFO transport 

INFO ] [discovery 

INFO ] [node 

INFO ] [node 

INFO ] [cluster.service 
INFO ] [tribe 

INFO ] [tribe 


INFO ] [cluster.service 


master [10.19.0.22] [6qyQh9EURUyO7RBC_dXDow] [localhost .localdomain 


INFO ] [indices.breaker 


INFO ] [tribe 


node [[10.19.0.93] [qAkl1Y08iSsSfif2vvu6lyw] [localhost. 


INFO ] [tribe 


2fS 22Mz9nY15Ueg] [localhost.localdomain 


Manslaughter/1003] es1003/ 


Manslaughter/1003] started 
Manslaughter/1002] start 


ing http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


Manslaughter/1002] bound 


0:0:0:9303]}, publish_address {inet [/10.19.0.100:9303] } 


Manslaughter/1002] es1002/ 
Manslaughter/1002] started 
Manslaughter] started 

Manslaughter/1003] detected 
Manslaughter] [1003] adding 
Manslaughter] [1003] adding 
Manslaughter/1002] detected 


Manslaughter/1002] Updating 


type=PARENT, limit=259489792/247.4mb, overhead=1.0], fielddata: 


Manslaughter] [1002] adding 


localdomain] [inet [/10.19.0.93:9300]] {max_local_storage_nodes=1, tribe.name=1002, master=false}] 


Manslaughter] [1002] adding 


index [test.yingjul-mweilbo client downstream success-2015.06.07]…… 


2015-06-18 18:08:13,208] [DEBUG] [discovery.zen.publish ] [Manslaughter/1003] received 
cluster state version 782404 
2015-06-18 18:08:13,208 


DEBUG] [discovery.zen.publish ] [Manslaughter/1002] received 
cluster state version 782405……' 


{inet [/10.19.0.97:9300]] {max_local_storage_nodes=1, data=false, master=true}, added {[10.19.0.73] [_S8ylzloTvé6n 


-mweibo.bx.sinanode.com] [inet [/10.19.0.73:9300]] {max_local_storage_nodes=1, tribe.name=1003, master=false}]…… 


{inet [/10.19.0.22:9300]] {max_local_storage_nodes=1, master=true}, added {[10.19.0.93] [qAklY08iSsSfif2vvu6lyw] [ 


[FiELDDATA, type=MEMORY, 1imit=155693875/148.4mb, overhead=1.03], request: [REQUEST, type=MEY 


从 日 志 中 加 粗 的 内 容 可 以 明显 看 到 ， 节 点 是 如 何 分 别 连接 上 两 个 集群 的 : 分 别 启动 两 个 子 节点 (Manslaughter/1002 和 Manslaughter/1003) ， 等 二 者 都 启动 后 ， 才 算 tribe 节 点 启动 完成 ; 然后 子 节 


点 各 自 连 接 对 应 的 集群 ， 各 自 获 


取 不 同 集群 的 节点 和 索引 列表 ， 分 别 响应 来 自 两 个 集群 的 zen 请 求 。 


最 后 ， 我 们 可 以 使 用 标准 的 RESTfu| 接 口 来 验证 一 下 : 


# curl 10.19.0.100:9201/_cat/indices?v 


health status index 


pri rep 


docs.count docs.deleted store.size pri.store.size 
green open  test.yingjul-mweibo_client_downstream_success-2015.06.07 20 1 
0 154.1gb 77gb 
green open weibo-client-video-2015.06.19 


40692459 


0 0 


970b 575b 


green open dpool-pc-weibo-2015.06.19 


0 0 


3.7kb 2.2kb 


green open logstash-video-2015.06.16 


149015413 


0 13.4gb 13 


5 1 
40 1 
27 0 


. 4gb 


不 同 集群 的 索引 ， 都 可 以 通过 tribe node 访 问 到 了 。 


12.3 puppet-elasticsearch 模 块 的 使 用 


Elasticsearch 作 为 一 个 java 应 用 ， 本 身 的 部 署 已 经 非常 简单 了 。 不 过 作为 生产 环境 ， 还 是 有 必要 采用 一 些 更 标准 化 的 方式 进行 集群 的 管理 。Elasticsearch 官 方 提供 并 推荐 使 用 Puppet 方 式 部 署 和 管理 。 
其 Puppet 模 块 源码 地 址 见 : https://github.com/elastic/puppet-elasticsearch 


12.3.1 ”安装 和 配置 示例 


和 其 他 标准 Puppet Module 一 样 ，puppet-elasticsearch 也 可 以 通过 Puppet Forge 直 接 安装 : 


# puppet module install elasticsearch-elasticsearch 


安装 好 Puppet 模 块 后 ， 就 可 以 使 用 了 。 模 块 提供 几 种 Puppet 资 源 ， 主 要 用 法 如 下 : 


class { 'elasticsearch': 
version => '1.5.2', 
config => { 'cluster.name' => 'es1003' }, 
java_install => true, 


elasticsearch::instance { $fqdn: 
config => { 'node.name' => $fqdn }, 
datadir => [ '/datal/elasticsearch' ], 
} 
elasticsearch::template { 'templatename': 
host => $::ipaddress, 
port => 9200, 
content => '{"template":"*", "settings": {"number_of_replicas":0}}' 


12.3.2 ”配置 解释 


示例 中 展示 了 以 下 三 种 资源 。 


- class: 配置 具体 安装 的 Elasticsearch 软 件 版 本 ， 全 集群 公用 的 一 些 基础 配置 项 。 注 意 ，puppet-elasticsearch 模 块 默 认 并 不 负责 Java 的 安装 ， 它 只 是 调用 操作 系统 对 应 的 Yum，Apt 工 具 ， 而 elasticsearch.tpm 或 
者 elasticsearch.deb 本 身 没有 定义 其 他 依赖 (因为 java 版 本 太 多 了 ， 定 义 起 来 不 方便 ) 。 所 以 ， 如 果 依 然 要 走 puppet-elasticsearch 配 置 来 安装 Java 的 话 ， 需 要 人 额外 开启 java_install 选 项 。 该 选项 会 使 用 另 一 个 PuppPet 


Module puppetlabs-java 来 安装 ， 默 认 安 装 的 是 jdk。 如 果 你 要 节省 空间 ， 可 以 再 加 一 行 java_package 来 明确 指定 软件 全 名 。 


instance: 配置 具体 单个 进程 实例 的 配置 。 其 中 config 和 init_defaults 选 项 在 class 和 instance 资 源 中 都 可 以 定义 ， 实 际 运行 时 ， 会 自动 做 一 次 合并 ， 当 然 ，instance 里 的 配置 优先 级 高 于 class 中 的 配置 。 此 外 ， 
最 重要 的 定义 是 数据 目录 的 位 置 。 有 多 快 磁盘 的 ， 可 以 在 这 里 定义 一 个 数组 。 


‘template: 模板 是 EElasticsearch 创 建 索 引 映 射 和 设置 时 的 预定 义 方式 。 一 般 可 以 通过 在 config/templates/ 目 录 下 放置 SON 文件 ， 或 者 通过 RESTful API 上 传 配置 两 种 方式 管理 。 而 这 里 ， 单 独 提供 了 
template 资 源 ， 通 过 Puppet 来 管理 模板 。content 选 项 中 直接 填 入 模板 内 容 ， 或 者 使 用 fe 选项 读 取 文件 均 可 。 


事实 上 ， 模 块 还 提供 了 plugin 和 script 资 源 管理 这 两 方面 的 内 容 。 考 虑 在 ELK 中 ， 二 者 用 的 不 是 很 多 ， 本 节 就 不 单独 介绍 了 。 想 了 解 的 读者 可 以 参考 官方 文档 。 


12.4 计划 内 停机 升级 的 操作 流程 


Elasticsearch 作 为 一 个 新 兴 项 目 ， 版 本 更 新 非常 快 。 而 且 每 次 版 本 更 新 都 或 多 或 少 带 有 一 些 重要 的 性 能 优化 、 稳 定性 提升 等 特性 。 可 以 说 ，Elasticsearch 集 群 的 版 本 升级 ， 是 目前 Elasticsearch 运 维 必 
然 要 做 的 一 项 工作 。 


按照 Elasticsearch 官 方 设 计 ， 有 restart upgrade 和 rolling upgrade 两 种 可 选 的 升级 方式 。 对 于 1.0 版 本 以 上 的 用 户 ， 推 荐 采用 rolling upgreade 方 式 。 


但 是 ， 对 于 主要 负载 是 数据 写 入 的 ELK stack 场 景 来 说 ， 却 并 不 是 这 样 ! 


rolling upgrade 的 步骤 大 致 如 下 : 
1) 暂停 分 片 分 配 。 


2) 单 节点 下 线 升 级 重启 。 


3) 开启 分 片 分 配 。 


4) 等 待 集群 状态 变 绿 后 继续 上 述 步骤 。 


实际 运行 中 ， 步 骤 2) 的 Elasticsearch 单 节点 从 restart 到 加 入 集群 ， 大 概要 100s 左 右 的 时 间 。 也 就 是 说 ， 这 100s 内 ， 该 节点 上 的 所 有 分 片 都 是 unassigned 状 态 。 而 按照 Elasticsearch 的 设计 ， 数 据 写 入 
需要 至 少 达 到 replica/2+1 个 分 片 完 成 才能 算 完 成 。 也 就 意味 着 你 所 有 索引 都 必须 至 少 有 1 个 以 上 副本 分 片 开 启 。 


但 事实 上 ， 很 多 日 志 场景 ， 由 于 写 入 性 能 上 的 要 求 要 高 于 数据 可 靠 性 的 要 求 ， 大 家 普遍 减 小 了 副本 数量 ， 甚 至 直接 关 掉 副本 复制 。 这 样 一 来 ， 整 个 rolling upgrade 期 间 ， 数 据 写 入 就 会 受到 严重 影响 ， 
完全 来 失 了 rolling 的 必要 性 。 


其 次 ,步骤 3) 中 的 Elasticsearch 分 片 均衡 过 程 中 ， 由 于 Elasticsearch 的 副本 分 片 数据 都 需要 从 主 分 片 通过 网 络 复制 重新 传输 一 次 ， 而 由 于 重启 ， 新 升级 的 节点 上 的 分 片 肯定 全 是 副本 分 片 (除非 压根 没 
BIA) 。 在 数据 量 较 大 的 情况 下 ， 这 个 步骤 耗 时 可 能 是 几 十 分 钟 甚至 以 小 时 计 。 而 且 并 发 和 限 速 上 稍微 不 注意 ， 可 能 导致 分 片 均 衡 的 带宽 直接 占 满 网 不， 正常 写 入 也 还 是 受到 影响 。 所 以 ， 对 于 写 入 压力 较 
大 ， 数 据 可 靠 性 要 求 偏 低 的 实时 日 志 场景 ， 依 然 建议 大 家 进行 主动 停机 式 的 restart upgrade, 


restart upgrade 的 步骤 如 下 : 


1) 首先 适当 加 大 集群 的 数据 恢复 和 分 片 均衡 并 发 度 以 及 磁盘 限 速 : 


# curl -XPUT http://127.0.0.1:9200/_cluster/settings -d '{ 


"persistent" : { 
"cluster" : { 
"routing" : { 
"allocation" : { 
"disable allocation" : "false", 
"cluster_concurrent_rebalance" 3 MBN, 
"node _concurrent_recoveries" : "5", 
"enable" : "all" 
} 
f 
r 
"indices" : { 
"recovery" : { 
"concurrent streams" : "30", 
"max_bytes_per_sec" : "2gb" 
} 
} 
ty 
"transient" : { 
"cluster" : { 
"routing" : { 
"allocation" : { 
"enable" : "all" 


} 


} 
p 


2) 暂停 分 片 分 配 : 


# curl -XPUT http://127.0.0.1:9200/_cluster/settings -d '{ 
"transient" : { 
"cluster.routing.allocation.enable" : "none" 
p : 


3) 通过 配置 管理 工具 下 发 新 版 本 软件 包 。 


4) 公告 周知 后 ， 停 止 数据 写 入 进程 ( 即 Logstash indexer 等 ) 。 


5) 如 果 使 用 Elasticsearch 1.6 版 本 以 上 ， 可 以 手动 运行 一 次 synced flush， 同 步 副 本 分 片 的 ommit id， 缩 小 恢复 时 的 网 络 传输 带宽 : 


# curl -XPOST http://127.0.0.1:9200/_flush/synced 


6) 全 集群 统一 停止 进程 ， 更 新 软件 包 ， 重 新 启动 。 


7) 等 待 各 节点 都 加 入 到 集群 以 后 ， 恢 复 分 片 分 配 : 


# curl -XPUT http://127.0.0.1:9200/_cluster/settings -d '{ 
"transient" : { 
"cluster. routing.allocation.enable" : "all" 
p | 


8) 由 于 同时 启 停 ， 主 分 片 几乎 可 以 同时 本 地 恢复 ， 整 个 集群 从 red 变 成 yellow 只 需要 2 分 钟 左右 。 而 后 的 副本 分 片 ， 如 果 有 synced flush， 同 样本 地 恢复 ， 否 则 网 络 恢复 总 耗 时 ， 视 数据 大 小 而 定 ， 会 明 
显 大 于 单 节 点 恢复 的 耗 时 。 


9) 如 果 有 synced flush， 建 议 等 待 集群 变 成 green 状 态 后， 恢复 写 入 ; 否则 在 集群 变 成 yellow 状 态 之 后 ， 即 可 着 手 开始 恢复 数据 写 入 进程 。 


12.5 _ Shield 权限 管理 


Shield 是 Elastic 公 司 官方 发 布 的 权限 管理 产品 。 其 主要 特性 包括 : 

o 提供 集群 节点 身份 验证 和 集群 数据 访问 身份 验证 。 

:提供 基于 身份 角色 的 细 粒 度 资源 和 行为 访问 控制 ， 细 到 索引 级 别 的 读 写 控制 。 
“ 提供 节点 间 数 据 传输 通道 加 密 保 护 输出 传输 安全 。 

“ 提供 审计 功能 。 


“ 以 插件 的 形式 发 布 。 


期 间 是 全 功能 的 。 过 期 后 Shield 将 会 在 降级 模式 下 工作 ， 此 模式 下 对 cluster health、cluster stats 以 及 index stats 等 接口 的 访问 将 被 阻止 无 法 使 


haa 


Shield 是 一 款 商业 产品 ， 不 过 提供 30 天 免费 试 


12.5.1 _ Shield 架构 


Shield 通 过 定义 一 套用 户 集合 来 认证 用 户 ， 采 用 抽象 的 域 方式 定义 用 户 集合 ， 支 持 : 
Shield 提供 工具 ./bin/shield/esusers 用 于 创建 和 管理 本 地 用 户 。 


+ 集成 LDAP 认 证 支持 映射 LDAP 安 全 组 到 Shield 角 色 ，LDAP 安 全 组 与 Shield 角 色 可 以 是 多 对 多 的 关系 。 


Shield 支 持 定义 多 个 认证 域 ,采用 order 字 段 进 行 优先 级 排序 。 如 一 个 本 地 域 esusers，order=1， 加 一 个 LDAP 域 ，order=2。 如 果 用 户 不 再 本 地 用 户 域 中 则 在 LDAP 域 中 查找 验证 。 其 中 : 


“ ./config/shield/roles.yml 文 件 定义 角色 和 角色 的 所 拥有 的 权限 。 


“ ./config/shield/group_to_role_mapping.yml 文 件 定义 LDAP 组 到 角色 映射 关系 。 


shield 使 用 SSL/TLS 证 书 进行 相互 认证 和 通讯 加 密 。 加 密 是 可 选 配 置 ， 如 果 不 使 用 ，shield 节 点 之 间 可 以 进行 简单 的 密码 验证 (明文 传输 ) 。 


Shield 采 用 RBAC 授 权 模型 ， 数 据 模型 包含 如 下 元 素 : 
“ 受 保护 资源 (Secured Resource) : 控制 用 户 访问 的 客体 ， 包 括 cluster; 


+ 权能 (Priviliege) : 用 户 可 以 对 受 保护 资源 执行 的 一 种 或 多 种 操作 ， 


、index/alias 等 等 。 


如 read、write 等 。 


“许可 (Permissions) : 对 被 保护 的 资源 拥有 的 一 个 或 多 个 权能 ， 如 read on the “products” index. 


:角色 (Role) : 命名 的 一 组 许可 。 


“用户 (Users) : 用 户 实体 ， 可 以 被 赋予 0 个 或 多 种 角色 ， 授 权 他 们 对 被 保护 的 资源 执行 各 种 权能 。 


shield 增 加 认证 尝试 、 授 权 失 败 等 安全 相关 事件 和 活动 日 志 。 


125.2 ”安装 部 署 


安装 License 和 Shield 插 件 的 命令 如 下 : 


bin/plugin -i elasticsearch/license/latest 
bin/plugin -i elasticsearch/shield/latest 


注意 ， 初 次 运行 Shield 需 要 重新 启动 Elasticsearch 集 群 。 后 续 更 新 License (license.json 为 License 文 件 ) 就 可 以 在 线 运 行 : 


# curl -XPUT -u admin 'http://127.0.0.1:9200/_licenses' -d @license.json 


然后 创建 本 地 管理 员 : 


./bin/shield/esusers useradd esadmin -r admin 


这 里 使 用 简单 的 配置 先 完成 基本 验证 : 使 用 纯 本 地 用 户 认 证 或 者 使 用 本 地 认证 + 基本 的 ldap 认 证 。 


1.Elasticsearch 配 置 


在 elasticsearch.yml 中 增加 如 下 配置 : 


hostname verification: false 


# shield.ssl.keystore.path: /app/elasticsearch/node01.jks 
# shield.ssl.keystore.password: XXXXXX 
shield: 
authe: 
realms: 
default: 
type: esusers 
order: 1 
ldaprealm: 
type: ldap 
order: 2 


url: "ldap://ldap.example.com:389" 
bind_dn: "uid=ldapuser, ou=users, o=services, 
bind password: changeme 
user search: 
base dn: "dc=example, dc=com" 
attribute: uid 
group_search: 
base_dn: "dc=example, dc=com" 
files: 


dc=example, dc=com" 


role mapping: "/app/elasticsearch/shield/group_to_role_mapping.ym1" 


unmapped_groups_as roles: false 


2. 角 色 配 置 


根据 默认 配置 文件 增 减 角色 和 访问 控制 权限 。 角 色 配 置 文 件 可 以 在 线 修改 ,保存 后 立即 生效 : 


([INFO ] [shield.authz.store ] [Winky Man] updated roles (roles file [/opt/elasticsearch/ 


config/shield/roles.yml] changed)) 


注意 ， 如 果 需 要 集成 Kibana 认 证 ， 用 户 角 色 也 需要 有 访问 ‘kibana’ 
无 法 访问 到 数据 索引 。 


Ww 


.用 户 组 与 角色 映射 配置 


索引 的 访问 权限 和 cluster: monitor/nodes/info 的 访问 权限 ， 具 体 参 照 Kibana 4 角色 中 的 定义 ， 否 则 


户 通 过 Kibana 认 证 后 仍然 


根据 默认 配置 文件 增 减 用 户 、 用 户 组 与 角色 配置 中 定义 角色 的 映射 关系 ， 可 以 灵活 实现 各 种 需求 。LDAP 组 仅 支持 安全 组 ， 不 支持 动态 组 。 这 个 配置 文件 可 以 在 线 修改 , 保存 后 立即 生效 : 


([INFO ] [shield.authc.ldap.support] [Vishanti] role mappings 


file [/opt/ 


elasticsearch/config/shield/group_to_role_mapping.yml] changed for realm [ldap/ 
ldaprealm]. updating mappingshttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/...) 


测试 方法 如 下 : 


# curl -u username http://127.0.0.1:9200/ 


12.6 ”searchguard 权 限 管理 


searchguard 是 一 个 官方 shield 插 件 的 开源 蔡 代 品 ， 其 官网 地 址 : htt 


需要 指出 的 是 : searchguard 采 取 了 双 许 可 证 书 。 核 心 功 能 的 开源 社 


ps://floragunn.com/searchguard/searchguard 提 供 了 全 局 SSL 通 信 、basic/Kerberos/LDAP 验 证 、 基 于 角色 
段 级 别 的 访问 控制 等 shield 的 重点 功能 ;从 2.x 版 本 开始 ，searchguard 跟 shield 配 置 语法 很 相似 ， 相 比 之 前 的 版 本 简洁 很 多 。 而 最 新 5.0 版 本 保持 了 和 2.x 版 本 的 一 致 性 。 


区 版 使 用 Apache v2 证 书 ， 全 功能 的 商业 版 依然 开放 源 代 码 ， 这 样 可 以 对 公众 证 明 


的 索引 、 文 档 乃 至 字 


己 的 安全 性 ， 但 是 要 求 使 


者 需 有 偿 用 于 商业 


目的 。 
searchguard 优 点 如 下 : 
“ 节点 之 间 通 过 SSL/TLS 传 输 。 
+ 支持 JDK SSL 和 Open SSL。 
“支持 热 载 入 ， 不 需要 重启 服务 。 
+ 支持 Kibana 及 Logstash 的 配置 。 
“ 可 以 控制 不 同 的 用 户 访问 不 同 的 权限 。 


“ 配置 简单 。 


12.6.1 安装 


安装 search-guard-5， 无 需 像 search-guard-2 那 样 先 单独 安装 search-guard-ssl 扩 展 ， 目 前 已 经 内 置 在 一 起 了 : 


bin/elasticsearch-plugin install -b com.floragunn:search-guard-5:5.0.0-8 


配置 elasticsearch 支 持 ssl。 


elasticsearch.yml 增 加 以 下 配置 : 


security.manager.enabled: false 

# Enable or disable node-to-node ssl encryption (default: true) 
#searchguard.ssl.transport.enabled: false 

# JKS or PKCS12 (default: JKS) 
#searchguard.ssl.transport.keystore_type: PKCS12 


# Relative path to the keystore file (mandatory, this stores the server certificates), must be placed under the config/ dir 


searchguard.ssl.transport.keystore filepath: node0-keystore.jks 
# Alias name (default: first alias which could be found) 
searchguard.ssl.transport.keystore_alias: my_alias 

# Keystore password (default: changeit) =| 
searchguard.ssl.transport.keystore_password: changeit 

# JKS or PKCS12 (default: JKS) 
#searchguard.ssl.transport.truststore_type: PKCS12 


# Relative path to the truststore file (mandatory, this stores the client/root certificates), must be placed under the config/ dir 


searchguard.ssl.transport.truststore filepath: truststore.jks 

# Alias name (default: first alias which could be found) 
searchguard.ssl.transport.truststore_alias: my alias 

# Truststore password (default: changeit) T 
searchguard.ssl.transport.truststore_password: changeit 

# Enforce hostname verification (default: true) 
#searchguard.ssl.transport.enforce_hostname_verification: true 

# If hostname verification specify if hostname should be resolved (default: true) 
#searchguard.ssl.transport.resolve_hostname: true 

# Use native Open SSL instead of JDK SSL if available (default: true) 
#searchguard.ssl.transport.enable openssl if available: false 

# Enable or disable rest layer security - https, (default: false) 
#searchguard.ssl.http.enabled: true 

# JKS or PKCS12 (default: JKS) 

#searchguard.ssl.http.keystore_type: PKCS12 


# Relative path to the keystore file (this stores the server certificates), must be placed under the config/ dir 


#searchguard.ssl.http.keystore filepath: keystore_https_nodel.jks 
# Alias name (default: first alias which could be found) 
#searchguard.ssl.http.keystore alias: my alias 

# Keystore password (default: changeit) ~ 
#searchguard.ssl.http.keystore_ password: changeit 


# Do the clients (typically the browser or the proxy) have to authenticate themself to the http server, default is false 


#searchguard.ssl.http.enforce_clientauth: false 
# JKS or PKCS12 (default: JKS) 
#searchguard.ssl.http.truststore type: PKCS12 


# Relative path to the truststore file (this stores the client certificates), must be placed under the config/ dir 


#searchguard.ssl.http.truststore filepath: truststore_https.jks 

# Alias name (default: first alias which could be found) 
#searchguard.ssl.http.truststore_alias: my alias 

# Truststore password (default: changeit) 
#searchguard.ssl.http.truststore_password: changeit 

# Use native Open SSL instead of JDK SSL if available (default: true) 
#searchguard.ssl.http.enable_openssl_if_available: false 


增加 searchguard 的 管理 员 帐 号 配置 ， 同 样 在 elasticsearch.yml 中 ， 增 加 以 下 配置 : 


security.manager.enabled: false 
searchguard.authcez.admin_dn: 
- "CN=admin, OU=client,O=client,1=tEst,C=De" #DN 


elasticsearch, 


将 node 证 书 和 根 证 书 放 在 elasticsearch 配 置 文件 目录 下 ， 证 书 可 用 官方 提供 的 脚本 生成 。 


Os 证 书 中 的 client 的 DN 及 server 的 oid 一 定 要 写 对 ,证 书 不 正确 会 导致 es 服务 起 不 来 。 (我 曾经 用 ejbca 生 成 证 书 不 能 使 用 ) 


12.6.2 ”权限 角色 配置 


searchguard 主 要 有 5 个 配置 文件 在 plugins/search-guard-2/sgconfig 下 。 通 过 针对 性 的 操作 、 角 色 、 
个 ELK 环 境 的 权限 ， 并 创建 一 个 普通 用 户 ， 能 且 只 能 访问 对 应 的 logstash-ops-YYYY.MM.DD 索 引 数据 : 


- sg configyml: 主 配置 文件 不 需要 做 改动 。 如 果 要 启用 其 他 验证 方式 ， 可 以 按 需 修改 。 


户 的 映射 定义 ， 可 以 做 到 很 细 粒 度 的 权限 控制 。 下 面 举例 中 ， 我 们 将 使 


“ sg_internal_users.yml: 该 文件 用 来 定义 用 户 。 本 例 中 ， 我 们 需要 一 个 用 作 状 态 监测 的 Kibana 服 务 器 用 户 、 一 个 Kibana 普 通 登 录用 户 和 一 个 Logstash 用 户 : 


searchguard 控 制 整 


kibana_server: 

#password is: kibanaserver 

hash: $2a$12$4AcgAt3xwOWadA5s5b1L6ev390XDNhm0esEoo33eZtrq2NOYru3H. 
kibana: 


#password is: kirk 
hash: $2a$12$xZOcnwYPYQ3zIadn1QIJ0eNhX1ingwMkTN . oMwkKxoGvDVPn4/6XtO 
roles: 
- devteam 
logstash: 
hash: $2a$12$xZOcnwYPYQ3zIadn1QIJ0eNhX1ngwMkTN . oMwkKxoGvDVPn4/6XtO 


密码 可 用 plugins/search-guard-2/tools/hash.sh 生 成 。 


同时 ， 在 这 里 还 可 以 定义 用 户 属于 的 角色 。 稍 后 解释 。 


-sgrolesyml: 角色 的 权限 配置 文件 ， 在 这 里 定义 每 个 角色 对 集群 状态 接口 、 索 引 读 写 接 口 的 权限 。 本 例 需要 定义 sg_kibana_server、sg_kibana 和 sg _logstash 三 个 角色 : 


sg_kibana_server: 
cluster: 
- cluster:monitor/nodes/info 
- cluster:monitor/health 
'?kibana': 
Vas 
~ indices:* 
sg_kibana: 
indices: 
"logstash-dev-*': 
tas 
— KIBANA USER 
'?kibana!': ~ 
Vas 
— KIBANA_SERVER 
sg_logstash: 
~ cluster: 
- indices:admin/template/get 
- indices:admin/template/put 
- indices:data/write/bulk* 


indices: 
"logstash-*': 
vets 
- CRUD 
— CREATE INDEX 
'*beat*': T 
tet: 
= CRUD 
- CREATE_INDEX 


sg_roles_mapping.yml: 


定义 用 户 和 角色 的 映射 关系 : 


sg_logstash: 
users: 
- logstash 
sg_kibana_server: 
~ users: 
- kibana_server 
sg_kibana: T 
~ backendroles: 
- devteam 


映射 关系 有 两 种 不 同 的 定义 方式 : 一 种 使 用 users， 意 思 是 该 角色 赋予 给 以 下 用 户 ; 一 种 使 用 backendroles， 意 思 是 该 角色 作为 以 下 角色 的 基层 角色 。 我 们 在 之 前 定义 用 户 时 ， 给 kibana 用 户 设 定 了 一 
个 角色 叫 devteam， 这 就 是 一 个 基层 角色 ; 然后 在 这 里 把 devteam 给 映射 到 sg_kibana 上 ， 也 就 是 Kibana 用 户 拥有 了 sg_kibana 角 色 的 权限 。 两 种 定义 方式 ， 可 以 按照 自己 的 偏好 选取 。 对 于 团队 较 多 的 场 
景 ， 采 用 backendroles 会 让 组 织 结构 显得 更 加 清晰 。 


sg_action_groups.yml: 定义 权限 操作 组 。 有 些 公用 的 操作 ， 可 以 在 这 里 定义 一 次 ， 在 sg_roles.yml 中 重复 引用 。 前 面 示 例 中 除了 这 里 定义 的 KIBANA_SERVER 和 KIBANA_USER 以 外 ， 还 用 到 了 CRUD 
和 CREATE_INDEX， 这 两 个 是 searchguard 安 装 时 默认 带 有 的 配置 : 


KIBANA SERVER: 
- indices:admin/exists* 
- indices:admin/mapping/put* 
- indices :admin/mappings/fields/get* 
- indices:admin/refresh* 
- indices :admin/validate/query* 
indices :data/read/get* 
indices :data/read/mget* 
indices:data/read/search* 
indices: data/write/delete* 
- indices:data/write/index* 
— indices:data/write/update* 
KIBANA USER: 
- indices:data/read* 
- indices :admin/mappings/fields/get* 
- indices :admin/validate/query* 
- indices:admin/get* 


proud 


12.6.3 ”其 他 组 件 配置 方式 


searchguard 配 置 完成 以 后 ， 我 们 需要 修改 ELK 环 境 中 其 他 组 件 配合 searchguard 进 行 权限 验证 工作 。 


1.Logstash 配 置 


Logstash 本 身 就 支持 SSL 和 认证 配置 ， 直 接 添加 相关 参数 项 即 可 : 


output { 

elasticsearch { 
user => logstash 
password => logstash 
ssl => true 
ssl_certificate verification => true 
truststore => "/path/to/elasticsearch-2.3.3/config/truststore. jks" 
truststore_password => changeit 


2.Kibana 配 置 


Kibana 同 样 支持 SSL 和 认证 配置 。 注 意 searchguard 加 密 的 是 Kibana 到 Elasticsearch 之 间 的 通信 ， 所 以 配置 Kibana.yml 如 下 : 


elasticsearch.url: "https://localhost:9200" 
elasticsearch.ssl.ca: "/path/to/your/root-ca.pem"™ 
elasticsearch.ssl.verify: false 
console.proxyConfig: 

- match: 


protocol: "https" 

ssl: 

verify: false 
elasticsearch.username: "kibanaserver" 
elasticsearch.password: "kibanaserver" 


可 以 看 到 ， 这 块 console app 的 SSL 配 置 是 单独 的 ， 需 要 额外 设置 。 


然后 还 需要 登录 页 面 ， 可 以 再 安装 search-guard 专 为 Kibana 准 备 的 登录 界面 插件 : 


#bin/kibana-plugin install https://github.com/floragunncom/search-guard-kibana-plugin/releases/download/v5.1.1-alpha/searchguard-kibana-alpha-5.1.1.zip 


并 在 kibana.yml 里 添加 一 句 : 


searchguard.cookie.password: "mysecretforsg" 


最 后 ， 可 以 尝试 登录 啦 ! 登录 界面 会 有 验证 。 输 入 普通 帐号 kibana 密 码 kirk， 用 户 就 只 能 查看 到 logstash-staging-[YYYY.MM.DD] 索 引 的 数据 了 。 


12.7 ”别名 的 应 用 


别名 (alias) 是 Elasticsearch 中 一 个 很 有 趣 的 功能 ， 对 别名 的 操作 ， 都 会 实际 作用 在 真实 的 索引 上 。 甚 至 可 以 一 个 别名 同时 指向 多 个 索引 ， 多 个 别名 指向 一 个 索引 ， 乃 至 带 着 过 滤 条 件 的 别名 。 在 无 颖 
切换 等 场景 中 ， 别 名 都 非常 有 用 。 本 节 即 举例 说 明 别 名 的 应 用 。 


12.7.1 索引 更 名 时 的 无 颖 切换 


由 于 各 种 原因 ， 难 免 会 在 ELK stack 系 统 已 经 上 线 后 ， 碰 到 需要 变更 索引 名 称 的 需求 。 下 面 分 三 种 日 志 场景 中 的 常见 可 能 ， 讲 解 如 何 利用 alias 功 能 来 完成 索引 更 名 时 的 无 颖 切换 。 


1. 索 引 名 前 缀 更 换 


比如 之 前 收集 的 只 有 apache-%{+yyyy.MM.dd} 数 据 ， 现 在 要 加 一 个 Nginx 日 志 ， 再 叫 这 个 名 字 不 太 合适 了 ， 想 统一 改 成 accesslog-%{+yyyy.MM.dd}。 


这 个 变更 在 Logstash 上 非常 好 完成 ， 但 是 到 Kibana 3 上 ， 就 得 重复 写成 [apache-]YYYY.MM.dd，[accesslog-]YYYY.MM.DD， 而 且 momentjs 还 会 多 拼 出 来 一 些 实际 不 存在 的 索引 名 ， 也 是 一 种 浪 
费 ; 而 Kibana 4 上 更 是 没 法 做 到 跨 索引 模式 的 请 求 。 建 议 采 用 如 下 步骤 来 完成 : 


1) 为 当前 索引 (假设 为 nginx-2015.07.28) 建 一 个 alias 叫 做 accesslog-2015.07.28， 之 前 索引 全 部 类 似 操作 : 


# curl -XPOST 'http://localhost:9200/_aliases' -d ' 
{ 


"actions" : [ 
{ "add" : { "index" ; "nginx-2015.07.28", "alias" : "accesslog-2015.07.28" } }, 
{ "add" : { "index" : "nginx-2015.07.27", "alias" : "accesslog-2015.07.27" } } 


2) 然后 把 Kibana 中 把 dashboard 配 置 的 索引 名 改 成 [accesslog-]YYYY.MM.DD。 


3) 将 Logstash 里 面 的 index 配 置 改 成 accesslog-%{+yyyy.MM.dd}， 重 启 。 


2.reindex 时 的 无 颖 切换 


另 一 种 情况 ， 更 名 只 是 临时 性 的 ， 比 如 因为 修改 某 个 mapping 设 置 ， 我 们 需要 对 原 有 数据 索引 做 一 次 reindex。reindex 肯 定 需 要 个 新 名 字 ， 那 么 在 这 个 过 程 中 ， 如 何 保证 无 颖 呢 ? 


注意 ，Elasticsearch 提 供 的 /_aliases 接 口 ， 是 原子 性 的 。 所 以 ， 同 一 次 接口 内 ， 我 们 完成 对 一 个 别名 的 修改 ， 对 外 界 是 透明 的 。 所 以 ， 假 设 你 现在 有 一 个 索引 叫 logstash-2015.07.28， 对 其 reindex 的 
步骤 如 下 : 


1) 创建 一 个 别名 指向 原 有 索引 ， 所 有 访问 都 改 走 新 的 别名 : 


# curl -XPUT http://localhost:9200/logstash-2015.07.28/_alias/tmp-2015.07.28 


2) 进行 reindex 操 作 ， 导 入 数据 到 new-2015.07.28。 步 骤 见 本 书 之 前 章节 内 容 。 


3) 切换 别名 : 


# curl -XPOST http://localhost:9200/_aliases -d ' 
{ 


"actions": [ 


{ "remove": { "index": "logstash-2015.07.28", "alias": "tmp-2015.07.28" }}, 
{ "add": { "index": "new-2015.07.28", "alias": "tmp-2015.07.28" }} 

y | 

3. 索 引 名 后 缀 时 间 粒 度 变 更 


为 了 节省 cluster state 和 segment count， 我 们 可 能 会 觉得 一 些小 数据 量 的 索引 没 必 要 按照 日 期 拆 分 ， 准 备 把 syslog-%{yyyy.MM.dd} 改 成 syslog-%{yyyy.MM}， 按 月 分 索引 。 


这 个 时 候 ， 我 们 需要 跟 上 面 一 个 场景 完全 相反 的 别名 设计 。 操 作 步 又 如 下 : 


1) 创建 一 个 当前 月 份 的 新 索引 (假设 当前 为 2015.07.29， 保 存 5 天 ) ， 同 时 创建 之 后 一 个 数据 保存 周期 内 每 天 的 别名 指向 : 


# curl -XPOST 'http://localhost:9200/syslog-2015.07' -d@syslog-mapping.json 
# curl -XPOST 'http://localhost:9200/syslog-2015.08' -d@syslog-mapping.json 
# curl -XPOST 'http://localhost:9200/_aliases' -d ' 

{ 


"actions" : [ 
{ "add" : { "index" : "syslog-2015.07", "alias" : "syslog-2015.07.30" } }, 
{ "add" : { "index" : "syslog-2015.07", "alias" : "syslog-2015.07.31" } }, 


{ "add" : { "index" ; "syslog-2015.08", "alias" : "syslog-2015.08.01" } }, 


{ "add" : { "index" : "syslog-2015.08", "alias" : "syslog-2015.08.02" } }, 
{ "add" : { "index" : "syslog-2015.08", "alias" : "syslog-2015.08.03" } } 


注意 ， 如 果 你 跟 我 一 样 不 巧 ， 当 前 数据 保存 周期 跨 月 了 ， 记 得 把 下 个 月 的 索引 也 进行 类 似 操作 。 


2) 当天 半夜 跨 天 的 时 候 ， 修 改 重启 Logstash 配 置 ， 开 始 写 入 按 月 的 新 索引 。 


3) 等 到 你 最 后 一 个 实际 按 天 命名 的 索引 也 超过 保存 周期 被 删除 后 ， 修 改 Kibana 上 的 索引 模式 为 [syslog-]YYYY.MM。 


12.7.2 ”限制 索引 数据 部 分 可 读 


一 般 来 说， 所 有 的 nginx 访 问 日 志 肯 定 是 存在 一 个 索引 里 的 。 但 是 各 个 业务 部 门 只 负责 自己 的 几 个 域名 ， 那 么 该 部 门 的 用 户 ， 就 只 需要 ， 也 只 应 该 看 自己 域名 下 的 日 志 就 够 了 。 这 个 需求 通常 来 说 ， 有 两 
个 办 法 : 


+ 在 Logstash 中 按 域名 切 分 索引 。 这 种 做 法 的 缺点 是 : Elasticsearch 的 cluster state 会 成 倍 的 增长 ， 对 集群 的 内 存 使 用 和 稳定 性 带 来 严重 威胁 。 


“ 在 Kibana 加 一 个 fltering 过 滤 条 件 。 这 种 做 法 的 缺点 是 : 这 个 关键 的 fter 和 其 他 所 有 filter 排 在 一 起 ， 很 容易 被 不 小 心 清除 ， 而 且 也 依然 是 暴露 了 其 他 数据 在 仪表 瘟 上 。 


使 用 别名 ， 可 以 较 好 地 实现 这 个 需求 。 可 以 在 template 配 置 中 ， 对 每 一 个 域名 创建 一 个 带 有 filter 条 件 的 alias: 


"template" : "nginx-*", 
"settings" : { }, 
"aliases" : { 
"{index}-www.corp.com" : { 
"filter" : { 
"term" : f 
"domain" : "www.corp.com" 
} 
} 
tr 
"{index}-abc.corp.com" : { 
"filter" > { 
"term" : { 
"domain" : "abc.corp.com" 


} 


注意 ， 这 里 使 用 了 一 个 {index} 语 法 ， 这 是 Elasticsearch 为 此 定制 的 小 功能 ,代表 当前 索引 的 实际 名 称 。 也 就 是 说 ,每 当 新 的 索引 (比如 nginx-2015.07.28) 生成 的 时 候 ， 同 时 会 有 nginx-2015.07.28- 
www.corp.com 和 和 nginx-2015.07.28-abc.corp.com 等 alias 指 向 nginx-2015.07.28。 而 在 对 这 些 别名 发 起 search、count、delete by query、MLT 等 请 求 的 时 候 ， 会 自动 带 上 各 自 的 filter 条 件 。 


这 样 在 Kibana 配 置 不 同业 务 的 仪表 盘 时 ， 就 可 以 直接 用 alias 做 配置 了 。 


在 实际 使 用 中 ， 可 能 还 需要 一 个 crontab 定 时 的 查询 是 否 有 新 的 域名 加 入 ， 自 动 对 新 域名 做 当天 的 alias， 并 把 它 加 入 template。 


128 快照 与 恢复 


大 多 数 公司 在 使 用 Elasticsearch 之 前 ， 都 已 经 维护 有 一 套 Hadoop 系 统 。 因 此 ， 在 实时 数据 慢 慢 变 得 冷却 ， 不 再 被 经 常 使 用 的 时 候 ， 一 个 需求 
转移 到 HDFS 上 ， 以 解决 Elasticsearch 上 的 磁盘 空间 ， 而 在 我 们 需要 的 时 候 ， 又 可 以 较 快 地 从 HDFS 上 把 索引 恢复 回来 继续 使 用 呢 ? 


然而 然 的 就 出 现 了 : 怎么 把 Elasticsearch 索 引 数 据 快速 


Elasticsearch 为 此 提供 了 snapshot 接 口 。 通 过 这 个 接口 ， 我 们 可 以 快速 导入 导出 索引 镜像 到 本 地 磁盘 ， 网 络 磁盘 ， 当 然 也 包括 HDFS。 


12.8.1 ”HDFS 揪 件 安装 配置 


下 载 repository-hdfs 插 件 ， 通 过 标准 的 elasticsearch plugin 安 装 命 令 安装 : 


bin/elasticsearch-plugin install elasticsearch/elasticsearch-repository-hdfs/5.0.0 


然后 在 elasticsearch.yml 中 增加 以 下 配置 : 


# repository 配置 

hdfs: 
uri:"hdfs://<host>:<port>" (#kikport 48020) 
#Hadoop file-system URI 
path:"some/path" 
#path with the file-system where data is stored/loaded 
conf.hdfs_config:"/hadoop/hadoop-2.5.2/etc/hadoop/hdfs-site.xm1" 
conf.hadoop_config:"/hadoop/hadoop-2.5.2/etc/hadoop/core-site.xml" 
load_defaults: "true" 
#whether to load the default Hadoop configuration (default) or not 
compress:"false" 
# optional - whether to compress the metadata or not (default) 
chunk_size:"10mb" 
# optional - chunk size (disabled by default) 

# 禁用 jsm 

security.manager.enabled: false 


默认 情况 下 ，Elasticsearch 为 了 安全 考虑 会 在 运行 JVM 的 时 候 执 行 JSM。 出 于 Hadoop 和 HDFS 客 户 端 权 限 问题 ， 所 以 需要 禁用 JSM。 将 elasticsearch.yml 中 的 security.manager.enabled 设 置 为 


false。 


将 插件 安装 好 ， 配 置 修改 完毕 后 ， 需 要 重启 Elasticsearch 服 务 。 没 有 重启 节点 揪 件 可 能 会 执行 失败 。 


注意 : Elasticsearch 集 群 的 每 个 节点 都 要 执行 以 上 步骤 ! 


12.8.2 ”Hadoop 配 置 


本 节 内 容 基 于 Hadoop 2.5.2， 假 定 其 配置 文件 目录 : hadoop-2.5.2/etc/Hadoop。 注 意 ， 安 装 Hadoop 集 群 需要 建立 主机 互信 ， 互 信 方 法 请 自行 查询 ， 很 简 和 


wig 


相关 配置 文件 如 下 : 


mapred-site.xml.template 


默认 没有 mapred-site.xml 文 件 ， 复 制 mapred-site.xmltemplate 一 份 ， 并 把 名 字 改 为 napred-site.xml， 需 要 修改 3 处 的 I|P 为 本 机 地 址 : 


<configuration> 
<property> 
<name>mapreduce . framework .name</name> 
<value>yarn</value> 
</property> 
<property> 
<name>mapreduce. jobtracker.http.address</name> 
<value>XX.XX.XX.XX:50030</value> 
</property> 
<property> 
<name>mapreduce. jobhistory.address</name> 
<value> XX.XX.XX.XX:10020</value> 
</property> 
<property> 
<name>mapreduce. jobhistory.webapp.address</name> 
<value> XX.XX.XX.XX:19888</value> 
</property> 
</configuration> 
yarn-site.xml 


需要 修改 5 处 的 IP 为 本 机 地 址 : 


<configuration> 
<!-- Site specific YARN configuration properties --> 
<property> 


<name>yarn .nodemanager .aux-services</name> 
<value>mapreduce_shuffle</value> 

</property> 
<property> 
<name>yarn. resourcemanager .address</name> 
<value> XX.XX.XX.XX:8032</value> 

</property> 

<property> 
<name>yarn. resourcemanager. scheduler.address</name> 
<value> XX.XX.XX.XX:8030</value> 

</property> 

<property> 
<name>yarn . resourcemanager . resource-tracker .address</name> 
<value> XX.XX.XX.XX:8031</value> 

</property> 

<property> 
<name>yarn . resourcemanager.admin.address</name> 
<value> XX.XX.XX.XX:8033</value> 

</property> 

<property> 
<name>yarn. resourcemanager . webapp .address</name> 
<value> XX.XX.XX.XX:8088</value> 

</property> 

</configuration> 
hadoop-env.sh 


修改 jdk 路 径 和 jvm 内 存 配 置 ， 内 存 使 用 根据 情况 配 


export JAVA_HOME=/usr/java/jdk1.7.0_79 

export HADOOP_PORTMAP OPTS="-Xmx512m $HADOOP_PORTMAP OPTS" 
export HADOOP CLIENT OPTS="-Xmx512m SHADOOP CLIENT OPTS" 
core-site.xml = z T 


临时 目录 及 hdfs 机 器 IP 端 口 指定 : 


hadoop.tmp.dir?/soft/hadoop-2.5.2/tmp Abase for other temporary directories. fs.defaultFS?hdfs:// XX.XX.XX.XX:9000 io.file.buffer.size?4096 
slaves 


配置 集群 IP 地 址 ， 集 群 有 几 个 IP 都 要 配置 进去 : 


192.168.0.2 
192.168.0.3 
192.168.0.4 
hdfs-site.xml 


namenode 和 datenode 数 据 存放 路 径 及 别名 : 


<configuration> 
<property> 
<name>dfs .namenode.name.dir</name> 
<value>/data01/hadoop/name</value> 
</property> 
<property> 
<name>dfs .datanode.data.dir</name> 
<value>/data01/hadoop/data</value> 
</property> 
<property> 
<name>dfs .replication</name> 
<value>1</value> 
</property> 
</configuration> 


启动 Hadoop。 


格式 化 完成 后 也 可 使 用 sbin/start-all.sh 启 动 ， 但 有 可 能 出 现 异常 ， 建 议 按照 顺序 分 开启 动 。 


1) 首先 需要 格式 化 存储 : bin/Hadoop namenode-format 
2) 然后 启动 start-dfs.sh sbin/start-dfs.sh 


3) 最 后 启动 start-yarn.sh sbin/start-yarn.sh 


12.8.3 备份 操作 


创建 快照 仓库 如 下 所 示 : 


curl -XPUT 'localhost:9200/_snapshot/backup' -d 
' 
{ 


"type": "hafs", 
"settings":{ 
"path":"/test/repo", 
"uri": "hdfs://<uri>:<port>" 
} 


p 


在 这 步 可 能 会 报错 。 通 常 是 


因为 Hadoop 配 置 问题 ， 更 改 好 配置 需要 重新 格式 化 文件 系统 : 
在 hadoop 目 录 下 执行 bin/hadoop namenode-format。 


索引 快照 : 执行 索引 快照 命令 ， 可 写 入 crontab， 定 时 执行 : 


curl -XPUT 'http://localhost:9200/_snapshot/backup/snapshot_1' -d 
'{"indices":"indices 01,indices_02"}' 


备份 恢复 : 


curl -XPOST "localhost:9200/_snapshot/backup/snapshot_1/_restore" 


备份 删除 : 


curl -XDELETE "localhost:9200/_snapshot/backup/snapshot_1" 


查看 仓库 信息 : 


curl -XGET 'http://localhost:9200/_snapshot/backup?pretty' 


12.9 rollover 和 shrink 管 理 


12.9.1 rollover 


Elasticsearch 从 5.0 开 始 ， 为 日 志 场 景 的 


， 叫 rollover。 其 作 


户 提供 了 一 个 很 不 错 的 接 


是 : 当 某 个 别名 指向 的 实际 索引 过 大 的 时 候 ， 


自动 将 别名 指向 下 一 个 实际 索引 。 


为 这 个 接口 是 操作 的 别名 ， 所 以 我 们 依然 需要 首先 自己 创建 一 个 开始 滚动 的 起 始 索引 : 


# curl -XPUT 'http://localhost:9200/logstash-2016.11.25-1' -d '{ 
"aliases": { 
"logstash": 
} 


{} 
p 


然后 就 可 以 尝试 发 起 rollover 请 求 了 : 


# curl -XPOST 'http://localhost:9200/logstash/_rollover' -d '{ 
"conditions": { ~ 
"max age": 
"max_docs": 


} 


"a", 
10000000 


p 


上 面 的 定义 意思 就 是 : 当 索 引 超 过 1 天 ,或 者 索引 内 的 数据 量 超过 一 干 万 条 的 时 候 ， 自 动 创建 并 指向 下 一 个 索引 。 


这 时 候 有 几 种 可 能 


条 件 都 没 满足 ， 直 接 返 回 一 个 false， 索 引 和 别名 都 不 发 生 实际 变化 ; 


"old_index" 
"new index" 
"rolled over" : false, 
"dry_run" : false, 
"acknowledged" : false, 
"shards acknowledged" : 
"conditions" : { 

"(max docs: 10000000]" : 

"[max age: 1d]" : false 
} 


"logstash-2016.11.25-1", 
"logstash-2016.11.25-1", 


false, 


false, 


还 没 满 天， 满 了 一 干 万 条 ， 那 么 下 一 个 索引 名 会 是 : logstash-2016.11.25-000002。 还 没 满 一 干 万 条 ， 满 了 一 天 ， 那 么 下 一 个 索引 名 会 是 : logstash-2016.11.26-000002, 


12.9.2 shrink 缩 容 


Elasticsearch 一 直 以 来 都 是 固定 分 片 数 的 。 这 个 策略 极 大 地 简化 了 分 布 式 系统 的 复杂 度 ， 但 是 在 一 些 场景 ， 比 如 存储 metric 的 TSDB、 人 小 数据 量 的 


老 数 据 合 并 存储 ， 节 约 过 多 的 cluster state 容 量 。 从 5.0 版 本 开始 ，Elasticsearch 新 提供 了 shrink 接 口 


Ox 所 谓 成 倍数 的 ， 就 是 原来 有 15 个 分 片 ， 可 以 合并 缩减 成 5 个 或 者 3 个 或 者 1 个 分 片 。 


整个 合并 缩减 的 操作 流程 ， 大 概 如 下 : 


日 志 存储 ， 人 们 会 期 望 在 多 分 片 快速 写 入 数据 以 后 ， 把 


， 可 以 成 倍数 地 合并 分 片 数 。 


1) 先 把 所 有 主 分 片 都 转移 到 一 台 主机 上 。 


2) 在 这 台 主 机 上 创建 一 个 新 索引 ， 分 片 数 较 小 ， 其 他 设置 和 原 索 引 一 致 。 


Ww 


把 原 索引 的 所 有 分 片 复制 (或 硬 链接 ) 到 新 索引 的 目录 下 。 


4) 对 新 索引 进行 打开 操作 恢复 分 片 数据 。 


5) (可 选 ) 重新 把 新 索引 的 分 片 均衡 到 其 他 节点 上 。 


1. 准 备 工作 


因为 这 个 操作 流程 需要 把 所 有 分 片 都 转移 到 一 台 主 机 上 ， 所 以 作为 shrink 主 机 ， 它 的 磁盘 要 足够 大 ， 至 少 要 能 放 得 下 整个 索引 。 最 好 是 整 块 磁盘 ， 因 为 硬 链接 是 不 能 跨 磁盘 的 。 靠 复制 太 慢 了 。 


开始 迁移 : 


# curl -XPUT 'http://localhost:9200/metric-2016.11.25/_settings' -d ' 
{ 
"settings": { 
"index. routing.allocation.require. name": "shrink node name", 
"index.blocks.write": true 
F i 


2.shrink 操 作 


shrink 操 作 如 下 : 


curl -XPOST 'http://localhost :9200/metric-2016.11.25/_shrink/oldmetric-2016.11.25' -d' 
{ 
"settings": { 
"index.number_of_replicas": 1, 
"index.number_of shards": 3 
ty 
"aliases": { 
"metric-tsdb": {} 
i 
p 


这 个 命令 执行 完 会 立刻 返回 ， 但 是 Elasticsearch 会 一 直 等 到 shrink 操 作 完 成 的 时 候 ， 才 会 真 开始 做 replica 分 片 的 分 配 和 重 均衡 ， 此 前 分 片 都 处 于 initializing 状 态 。 


Ox Elasticsearch 有 一 个 硬 编码 限制 ， 单 个 分 片 内 的 文档 总 数 不 得 超过 2147483519 个 。 一 般 来 说 ， 这 个 限制 在 日 志 场景 下 是 不 太 会 触发 的 ， 但 是 如 果 做 TSDB 用 ， 则 需要 多 加 注意 ! 


12.10 ingest 节 点 


Ingest 节 点 是 Elasticsearch 5.0 新 增 的 节点 类 型 和 功能 。 其 开启 方式 为 : 在 elasticsearch.yml 中 定义 : 


node.ingest: true 


Ingest 节 点 的 基础 原理 是 : 节点 接收 到 数据 之 后 ， 根 据 请 求 参 数 中 指定 的 管道 流 id， 找 到 对 应 的 已 注册 管道 流 ， 对 数据 进行 处 理 ， 然 后 将 处 理 过 后 的 数据 ， 按 照 Elasticsearch 标 准 的 indexing 流 程 继续 


12.10.1 创建 管道 流 


创建 管道 流 如 下 : 


curl -XPUT http://localhost:9200/_ingest/pipeline/my-pipeline-id -d ' 
{ 


"description" : "describe pipeline", 
"processors" : [ 


"convert" 
"fiel 


p 


然后 发 送 端 带 着 这 个 my-pipeline-id 发 请 求 就 好 了 。 示 例 见 本 书 第 8 章 对 beats 的 介绍 。 
12.10.2 ”测试 管道 流 
想 知道 自己 的 ingest 配 置 是 否 正确 ， 可 以 通过 仿真 接口 测试 验证 一 下 : 


curl -XPUT http://localhost:9200/_ingest/pipeline/_simulate -d ' 
{ 


"pipeline" : { 
"description" : "describe pipeline", 
"processors" : [ 
"set" 3 
"field": "foo", 
"value": "bar" 
} 
} 
] 
] 
"docs" : [ 


" index": "index", 


" type": "type", 

"ia": "Ga", 

"Z source": { 
"foo" : "bar" 


12.10.3 ”处 理 器 


Ingest 节 点 的 处 理 器 ， 相 当 于 Logstash 的 filter 揪 件 。 事 实 上 其 主要 处 理 器 就 是 直接 移植 了 Logstash 的 filter 代 码 ， 并 将 其 改 成 java 版本。 目前 最 重要 的 几 个 处 理 器 分 别 是 : convert、grok、gsub、 
date， 下 面 分 别 举例 。 


convert: 
{ 
"convert": { 
"field" : "foo", 
"type": "integer" 
} 
} 
grok: 
{ 
"grok": { 
"field": "message", 
"patterns": ["my %{FAVORITE_DOG:dog} is colored %{RGB:color}"] 
"pattern definitions" : { 
"FAVORITE DOG" : "beagle", 
"RGB" : "RED|GREEN|BLUE" 


"pattern": "\.", 


"date" : { 
"field" : "initial_date", 
"target_field" : "timestamp", 
"formats" : ["dd/MM/yyyy hh:mm:ss"], 
"timezone" : "Europe/Amsterdam" 


除了 内 置 的 处 理 器 之 外 ， 还 有 3 个 处 理 器 ， 官 方 选择 了 以 插件 性 质 单独 发 布 ， 它 们 是 attachement、geoip 和 user-agent。 原 因应 该 是 这 3 个 处 理 器 需要 额外 数据 模块 ， 而 且 处 理性 能 一 般 ， 担 心 拖累 ES 
集群 。 


它们 可 以 和 其 他 普通 ES 揪 件 一 样 安装 ， 如 下 所 示 : 


sudo bin/elasticsearch-plugin install ingest-geoip 


使 用 方式 和 其 他 处 理 器 一 样 : 


curl -XPUT http://localhost:9200/_ingest/pipeline/my-pipeline-id-2 -d ' 
{ 


"description" : "Add geoip info", 
"processors" : [ 
"geoip" : { 
"field" : "ip", 
"target_field" : "geo", 
"database_file" : "GeoLite2-Country.mmdb.gz" 


i 


第 13 章 ”映射 与 模板 的 定制 


Elasticsearch 是 一 个 schema-less 的 系统 ， 但 并 不 代表 no schema， 而 是 会 尽量 根据 JSON 源 数据 的 基础 类 型 猜测 你 想 要 的 字段 类 型 映射 。 如 果 你 对 这 种 动态 生成 的 映射 关系 不 满意 ， 或 者 想 要 使 用 一 些 
更 高 级 的 映射 设置 ， 那 么 就 需要 使 用 自 定义 映射 。 本 章 介绍 使 用 自 定义 映射 所 需 的 知识 ， 主 要 包括 : 映射 的 增删 改 查 的 基础 知识 ，Elasticsearch 的 核心 类 型 ， 自 定义 字段 映射 ， 特 殊 字段 ， 除 了 写 入 数据 字 
段 以 外 ， 会 自动 生成 的 一 些 特殊 字段 内 容 及 其 作用 ， 在 某 些 场景 下 ， 会 需要 对 这 些 字段 的 映射 同样 做 定制 。 动 态 模 板 映射 ， 可 以 在 定制 一 类 相似 的 字段 映射 时 起 到 灵活 简便 的 效果 。 索 引 模板 ， 可 避免 每 天 
手动 创建 映射 的 重复 工作 。 


13.1 ”映射 的 增删 改 查 


正如 上 面 所 说 ，Elasticsearch 可 以 随时 根据 数据 中 的 新 字段 来 创建 新 的 映射 关系 。 所 以 ， 我 们 也 可 以 自己 在 还 没有 正式 数据 写 入 之 前 ， 先 创建 一 个 基础 的 映射 。 等 后 续 数 据 有 其 他 字段 
时 ，Elasticsearch 也 一 样 会 自动 处 理 。 


映射 的 创建 方式 如 下 : 


# curl -XPUT http://127.0.0.1:9200/logstash-2015.06.20/_mapping -d ' 
{ 


"mappings": { 
"syslog" : { 
"properties" : { 
"@timestamp" : { 
"type" : "date" 
] 
"message" : { 
"type" : "text" 


"pid" : { 


} 
p 


阅 之 前 10.4 节 ， 采 用 重新 导入 数据 的 方式 完成 。 


注意 ， 对 于 已 存在 的 映射 ，Elasticsearch 的 自动 处 理 仅 限于 新 字段 出 现 。 已 经 生成 的 字段 映射 ， 是 不 可 变更 的 。 如 果 确 实 需要 ， 请 参 


而 如 果 是 新 增 一 个 字段 映射 的 更 新 ， 那 还 是 可 以 通过 /_ mapping 接 口 直接 完成 的 : 


# curl -XPUT http://127.0.0.1:9200/logstash-2015.06.21/_mapping/syslog -d ' 
{ 
"properties" : { 
"syslogtag" : { 
"type" : "keyword", 
} 
} 
p 


没 错 ， 这 里 只 需要 单独 写 这 个 新 字段 的 内 容 就 够 了 。Elasticsearch 会 自动 合并 进去 。 


虽然 写 入 数据 会 自动 添加 映射 ， 但 删除 数据 并 不 代表 会 删除 数据 的 映射 。 比 如 : 


# curl -XDELETE http://127.0.0.1:9200/logstash-2015.06.21/syslog 


删除 了 索引 下 syslog 的 全 部 数据 ， 但 是 syslog 的 映射 还 在 。 删 除 映 射 (同时 也 就 删 掉 了 数据 ) 的 命令 是 : 


# curl -XDELETE http://127.0.0.1:9200/logstash-2015.06.21/_mapping/syslog 


当然 ， 如 果 删 除 整个 索引 ， 那 映射 也 是 同时 被 清除 的 。 


学 习 索 引 映 射 最 直接 的 方式 ， 就 是 查看 已 有 数据 索引 的 映射 。 我 们 用 Logstash 写 入 Elasticsearch 的 数据 ， 都 会 根据 Logstash 自 带 的 template， 生 成 一 个 很 有 学 习 意 义 的 映射 。 查 看 已 有 了 映射 的 命令 如 


# curl -XGET http://127.0.0.1:9200/logstash-2015.06.16/_mapping/logs 
{ 
"logstash-2015.06.16": { 
"mappings": { 
"logs": { 
"properties": { 
"@timestamp": { 
"type": "date", 
"format": "dateOptionalTime" 


ty 

"host": { 
"type": "keyword", 
"ignore_above": 256, 


"type": "text", 

"omit norms": true 
ty 
"@version": { 

"type": "keyword" 
} 


13.2 ”Elasticsearch 的 核心 类 型 


本 节 介绍 Elasticsearch 自 带 的 数据 类 型 。 数 据 类 型 是 Lucene 索 引 的 依据 ， 也 是 我 们 做 手动 映射 调整 的 依据 。 


映射 中 主要 就 是 针对 字段 设置 类 型 以 及 类 型 相关 参数 。 那 么 ， 我 们 首先 来 了 解 一 下 Elasticsearch 支 持 的 核心 类 型 ; 


JSON 基 础 类 型 如 下 : 


' 字符 串 : string 

数字: byte, short, integer, long, float, double, half-float 
- 时间: date 

- 布尔 值 : true, false 
数组: array 

- 对象: object 
Elasticsearch 独 有 类 型 如 下 : 
“ 多重: multi 

- 经 纬度 : geo_point 

- 网络 地 址 : ip 

- HAt: nested object 

+ Sub): binary 


“附件: attachment 


前 面 提 到 ，Elasticsearch 是 根据 收 到 的 JSON 数 据 里 的 类 型 来 猜测 的 。 所 以 ， 一 个 内 容 为 “123” 的 数据 ， 猜 测 出 来 的 类 型 应 该 是 string 而 不 是 long。 除 非 这 个 字段 已 经 有 了 确定 为 long 的 映射 关系 ， 那 
么 Elasticsearch 会 尝试 做 一 次 转换 。 如 果 转 换 失败 ， 这 条 数据 写 入 就 会 报错 。 


13.3” 自 定义 字段 映射 


大 家 可 以 通过 之 前 12.1 节 展示 的 logstash-2015.06.16 映 射 发 现 ， 
可 能 会 比较 常用 的 映射 属性 : 


实 所 有 的 字段 都 有 好 几 个 属性 ， 这 些 都 是 我 们 可 以 自己 定义 修改 的 。 除 了 已 经 看 到 的 这 些 基 本 内 容 外 ，Elasticsearch 还 支持 其 他 一 些 


“ 全 文 索引 还 是 精确 索引 
“ 自 定义 分 词 器 


“ 自 定义 日 期 格式 


13.3.1 ”精确 索引 


字段 都 有 几 个 基本 的 映射 选项 ， 类 型 (type) 、 存 储 (store) 和 索引 方式 (index) 。 上 默认 来 说 ，store 是 false 而 index 是 true。 因 为 ES 会 直接 在 source 里 存储 全 部 JSON， 不 用 每 个 field 单 独 存储 了 。 


不 过 在 非 日 志 场 景 ， 比 如 用 作 监 控 存 储 的 TSDB 使 用 的 时 候 ， 我 们 就 可 以 关闭 _source， 只 存储 有 关 metric 名 称 的 字段 store; 同时 也 关闭 所 有 数值 字段 的 index， 只 使 用 它们 的 doc_values。 


13.3.2 ”时 间 格 式 


稍微 见 过 ELK stack 示 例 的 人 ， 都 对 其 中 @timestamp 字 段 的 特殊 格式 有 深刻 的 印象 。 这 个 时 间 格 式 在 Nginx 中 叫 $time iso8601， 在 Rsyslog 中 叫 date-rfc3339， 在 Elasticsearch 中 叫 
dateOptionalTime。 但 事实 上 ，Elasticsearch 完 全 可 以 接收 其 他 时 间 格 式 作为 时 间 字段 的 内 容 。 对 于 Elasticsearch 来 说 ， 时 间 字段 内 容 实际 都 是 转换 成 long 类 型 作为 内 部 存储 的 。 所 以 ， 接 收 段 的 时 间 格 
式 可 以 任意 配置 : 


"@timestamp" : { 
"type" : "date" 
"format" : "dd/MMM/YYYY:HH:mm:ss Z", 


} 


而 Elasticsearch 默 认 的 时 间 字 段 格式 ， 除 了 dateOptionalTime 以 外 ， 还 有 一 种 ， 就 是 epoch_millis， 毫 秒 级 的 UNIX 时 间 戳 。 因 为 这 个 数值 ES 可 以 直接 用 ， 毫 不 修改 地 存 成 内 部 实际 的 long 数 值 。 此 
Ah, MES 2.0 开 始 ， 新 增 了 对 秒 级 UNIX 时 间 戳 的 支持 ， 其 format 定 义 为 : epoch_second。 


Ore 从 ES 2.x 开 始 ， 同 名 date 字 段 的 format 也 必须 保持 一 致 。 


133.3 BBR 


多 重 索引 是 Logstash 用 户 最 习惯 的 一 个 映射 ， 因 为 这 是 Logstash 默 认 设置 开启 的 配置 : 


title { 
"type": "text", 
"fields": { 


"raw": { "keyword" } 


其 作用 是 ， 在 title 字 段 数据 写 入 的 时 候 ，Elasticsearch 会 自动 生成 两 个 字段 ， 分 别 是 title 和 title.raw。 这 样 ， 在 可 能 同时 需要 分 词 与 不 分 词 结果 的 环境 下 ， 就 可 以 很 灵活 的 使 用 不 同 的 索引 字段 了 。 比 
如 ， 查 看 标题 中 最 常用 的 单词 ， 应 该 使 用 title 字 段 ; 查看 阅读 数 最 多 的 文章 标题 ， 应 该 使 用 title.raw 字 段 。 


注意 ，raw 这 个 名 字 你 可 以 自己 随意 取 。 比 如 说 ， 如 果 你 绝 大 多 数 时 候 用 的 是 精确 索引 ， 那 么 你 完全 可 以 为 了 方便 反 过 来 定义 : 


title { 
"type": "keyword", 
"fields": { 


"alz": { "type": "text" } 


134 ”特殊 字段 


上 面 介绍 的 都 是 对 普通 数据 字段 的 一 些 常用 设置 。 而 实际 上 ，Elasticsearch 默 认 还 有 一 些 特殊 字段 ， 在 默默 地 发 挥 着 作用 。 这 些 字段 统一 以 _ 下 划 线 开头 。 在 之 前 9.1 节 中 ， 我 们 就 已 经 看 到 一 些 ， 比 如 
_index、_type、_id。 默 认 不 开启 的 还 有 ttl、_timestamp、_size、_parent 等 。 这 里 需要 单独 介绍 两 个 ， 对 我 们 索引 和 检索 的 效果 和 性 能 都 有 较 大 影响 


e 


1._all 


_al 里 存储 了 各 字段 的 数据 内 容 。 其 作用 是 ， 在 检索 的 时 候 ， 如 果 无 法 或 者 未 指明 具体 搜索 哪个 字段 的 数据 ， 那 么 Elasticsearch 默 认 就 会 是 从 _all 里 去 查找 。 


对 于 日 志 场 景 ， 如 果 你 的 日 志 划 分 出 来 的 字段 比较 少 上 数目 固定 。 那 么 ， 完 全 可 以 关闭 掉 all 功 能 ， 节 省 这 部 分 MO 和 CPU。 


2. Source 


_source 里 存储 了 该 条 记录 的 JSON 源 数据 内 容 。 这 部 分 内 容 只 是 按照 Elasticsearch 接 收 到 的 内 容 原样 存储 下 来 ， 并 不 经 过 索引 过 程 。 对 于 Elasticsearch 的 请 求 过 程 来 说 ， 它 不 参与 Query 阶 段 , 而 只 
于 Fetch 阶 段 。 我 们 在 GET 或 者 /_search 时 看 到 的 数据 内 容 ， 都 是 从 _source 里 获取 到 的 。 


所 以 ， 虽然 source 也 重复 了 一 遍 索 引 中 的 数据 ， 一 般 我 们 并 不 建议 关闭 这 个 功能 。 因 为 一 旦 关闭 ， 你 搜索 的 结果 除了 一 个 id， 啥 都 看 不 到 。 对 于 日 志 场 景 ， 意 义 不 是 很 大 。 


当然 ， 也 有 少数 场景 是 可 以 关闭 source 的 : 
“ 把 Elasticsearch 作 为 时 间 序 列 数据 库 使 用 ， 只 要 聚合 统计 结果 ， 不 要 源 数据 内 容 。 
“ 把 Elasticsearch 作 为 纯 检索 工具 使 用 ，_id 对 应 的 内 容 在 HDFS 上 男 外 存储 ， 搜 索 后 使 用 所 得 _id 去 HDFS 上 读 取 内 容 。 


“_field_names 里 存储 的 是 每 条 数据 的 字段 名 ， 你 可 以 认为 它 是 a]f 的 补 集 。 其 主要 作用 是 在 做 _missing 或 _exists_ 查 询 的 时 候 ， 不 用 检索 数据 本 身 ， 直 接 获 取 字 段 名 对 应 的 文档 ID。 听 起 来 似乎 变 不 错 
的 ， 但 是 文档 较 多 的 时 候 ， 就 意味 着 这 个 倒 排 链 非常 长 ! 而 且 几 乎 每 次 索引 写 入 操作 ， 都 需要 往 这 个 倒 排 里 加 入 文档 ID， 这 点 是 实际 使 用 中 非常 损耗 写 入 性 能 的 地 方 。 


除非 有 必要 理由 ， 关 闭 field_names 可 以 提升 大 概 20% 的 写 入 性 能 。 


13.5 “动态 模板 映射 


不 想 使 用 默认 识别 的 结果 ， 单 独 设置 一 个 字段 的 映射 的 方法 ， 上 面 已 经 介绍 完毕 。 那 么 ， 如 果 你 有 一 类 相似 的 数据 字段 ， 想 要 统一 设置 其 映射 ， 就 可 以 用 到 下 一 项 功能 : 动态 模板 映射 


(dynamic templates) 。 


"default "> { 
"dynamic templates" : [ { 
"message field" : { 
"mapping" : { 
"omit_norms" : true, 
"store" : false, 
"type" : "string" 


"match" : "*msg", 
"match_mapping_type" : "text" 
} 
tr { 
"string fields" : { 
"mapping" : { 
"index" : "not_analyzed", 
"ignore above" : 256, 
"type" : "keyword" 
"match" : "*", 
"match_mapping type" : "string" 
} 


, 
"properties" : { 


这 样 ， 只 要 字符 串 类 型 字段 名 以 msg 结 尾 的 ， 都 会 经 过 全 文 索 引 ， 其 他 字符 串 字段 则 进行 精确 索引 。 同 理 ， 还 可 以 继续 书写 其 他 类 型 的 match_mapping_type 和 match。 


13.6 索引 模板 


对 每 个 希望 自 定义 映射 的 索引 ， 都 要 定时 提前 通过 发 送 PUT 请 求 的 方式 创建 索引 的 话 ， 未 免 太 过 麻烦 。Elasticsearch 对 此 设计 了 索引 模板 功能 。 我 们 可 以 针对 同一 类 索引 ， 定 制 相 同 的 模板 。 


模板 中 的 内 容 包括 两 大 类 ，setting (设置 ) 和 mapping (映射 ) 。setting 部 分 ， 多 为 在 elasticsearch.yml 中 可 以 设置 全 局 配置 的 部 分 ， 而 mapping 部 分 ， 则 是 这 节 之 前 介绍 的 内 容 。 


如 下 为 定义 所 有 以 te 开头 的 索引 的 模板 : 


# curl -XPUT http://localhost:9200/_template/template_1 -d ' 
{ 
"template" : "te*", 


"settings" : { 
"number of _shards" : 1 


"source" : { "enabled" : false } 


同时 ， 索 引 模 板 是 有 序 合并 的 。 如 果 我 们 在 同一 类 索引 里 ， 又 想 单独 修改 某 一 小 类 索引 的 一 两 处 单独 设置 ， 可 以 再 累加 一 层 模板 : 


# curl -XPUT http://localhost:9200/_template/template_2 -d ' 
{ 
"order" + 1; 
"template" : "tete*", 
"settings" : { 
"number of shards" : 2 


"all" : 1 "enabled" : false } 


默认 的 order 是 0， 那 么 新 创建 的 order 为 1 的 template_2 在 合并 时 优先 级 大 于 template_1。 最 终 ， 对 tete*/type1 的 索引 模板 效果 相当 于 : 


{ 
"settings" : { 
"number of shards" : 2 


" source" : { "enabled" : false }, 
"all" : { "enabled" : false } 


curl 来 获取 数 


14.1 


第 14 章 


Elasticsearch 作 为 一 个 分 布 式 系统 ， 


监控 方案 


居 ， 编 写 监控 程序 ， 也 可 


以 使 用 一 些 现成 的 监控 方案 。 


监控 功能 自然 是 重 中 之 重 。 


m 


本 章 会 先 介绍 一 些 常 


监控 相关 接口 


的 监控 接 


通常 这 些 方案 也 是 通过 接口 读 取 数 


本 节 介绍 一 些 党 


14.1.1 “集群 健康 状态 


的 监控 接 


， 及 其 响应 数据 的 含义 。 然 后 再 介绍 几 种 常 


， 及 其 响应 数据 的 含义 。 


asticsearch 本 身 提 供 了 非常 完善 的 、 由 浅 及 深 的 各 种 性 能 数据 接 


。 与 数据 读 写 检索 接 


一 样 , 采 


说 到 Elasticsearch 集 群 监 : 


意料 地 丰富 。 


1. 命 令 示例 


， 首 先 我 们 肯定 需 


一 个 总 体 意义 上 的 概要 。 不 管 是 多 大 规模 的 集群 ， 


居 ， 解 析 JSON， 泻 染 界面 。 


告诉 我 正常 还 是 不 正常 ? 没 错 ， 集 群 健康 状态 接口 就 是 


的 开源 和 商业 Elasticsearch 监 控 产 品 ， 如 : 实时 bigdesk 方 案 ，cerebro 管 理 方案 ，Zabbix trapper 方 案 。 


RESTful 风 格 。 我 们 可 以 直接 使 


来 回答 这 个 


问题 的 ， 而 且 这 个 接口 的 信息 出 


# curl -XGET 127.0.0.1:9200/_cluster/health?pretty 
{ 


"cluster_name" 
"status" "green", 
"timed out" : false, 
"number of nodes" : 38, 


: "es1003", 


“number ， of data_nodes" : 2 


“active primary | ; shards" 
"active shards" : 2381, 


"relocating_shards Ms. Uy 


“initializing shards" 


"unassigned shards" : 0, 
"number of pending tasks" 
"delayed 1 unassigned ， shards" 


T, 
: 1332, 


"number of in | flight | fetch" : 
"task max ; waiting - in queue millis" : 0, 


"active : shards percent as | number" 


} 


0, 
0, 


: 100.0 


状态 信息 


输出 里 最 重要 的 就 是 status 这 行 代 码 。 很 多 开源 的 Elasticsearch 监 控 脚 本 ， 其 实 就 是 拿 这 : 


+ green (绿灯 ) 


- yellow ( 黄 灯 ) ， 


- red ( 红 灯 ) 


， 所 有 分 片 都 正确 


所 有 主 分 片 都 正确 运行 ， 但 是 有 副本 分 片 缺 失 。 这 种 情 
Kibana 4 也 会 拒绝 启动 ， 死 循环 等 待 集群 状态 


运行 ， 


集群 非常 健康 。 


变 成 绿灯 后 才能 继续 运行 


行 数 所 


况 意 味 着 Elasticsearc 


熟悉 Nagios 的 读者 ， 可 以 直接 将 这 个 红 黄 绿灯 对 应 上 Nagios 体 系 中 的 Critical、Warning、OK。 


3. 其 他 数据 解释 


+ number_of_nodes， 集 群 内 的 总 节点 数 。 


* number_of_data_nodes, 


集群 内 的 总 数据 节 


+ active_primary_shards， 集 群 内 所 有 索引 的 主 分 片 总 数 。 


“active_shards ， 集 群 内 所 有 索引 的 分 片 总 数 。 


“ telocating_shards， 正 在 迁移 中 的 分 片 数 。 


“initializing_shards， 正 在 初始 化 的 分 片 数 。 


- unassigned_shards， 未 分 配 到 具体 节点 上 的 分 片 数 。 


- delayed_unassigned_shards， 延 时 待 分 配 到 具体 节点 上 的 分 片 数 。 


显然 ， 后 面 四 项 在 正常 情况 下 ， 一 般 都 应 该 是 0。 但 是 如 果真 的 出 现 了 长 期 非 0 的 情况 ， 


信息 。 不 过 在 集群 健康 这 


4.level 请 求 参数 


接口 请 求 的 时 候 ， 可 以 附加 一 个 level 参 数 ， 指 定 输出 信息 以 indices 还 是 shards 级 别 显示 。 


层 ， 本 身 就 可 以 得 到 更 详细 一 点 的 内 容 了 。 


怎么 才能 知道 这 些 长 期 未 分 配 或 者 正在 初始 化 的 分 片 影响 的 是 哪个 索引 呢 ?” 本 书 随后 还 


一 般 来 说 ， 


居 做 报警 判断 。status 有 三 个 


可 能 的 值 : 


indices 级 别 就 够 了 。 


常 运行 的 ， 但 是 有 一 定 风险 。 注 意 ， 在 Kibana 4 的 server 端 启动 逻辑 中 ， 


， 有 主 分 片 缺失 。 这 部 分 数据 完全 不 可 用 。 而 考虑 到 Elasticsearch 在 写 入 端 是 简单 的 取 余 算法 ， 轮 到 这 个 分 片上 的 数据 也 会 持续 写 入 报错 。 


会 介绍 更 多 接口 


即使 是 黄 灯 状 


获取 相关 


# curl -XGET http://127.0.0.1:9200/_cluster/health?level=indices 


{ 
"cluster_name": 
"status": "red", 
"timed out": false, 
"number of nodes": 


要 38, 
"number of data_nodes": 


"es1003" 


27, 


"active primary shards": 1332, 


"active _shards fr 
"relocating shards": 


"initializing shards": 


2380, 


0, 


"unassigned shards": 1 


"delayed 1 unassigned ， shards" : 0, 
"number of in | flight : fetch" : 0, 

"task max ; waiting - in queue millis" : 0, 
"active shards_percent ， as_number" : 99.0 
"indices": { 

“logstash-2015.05.31": { 

"status": "green", 


"number of shards" 1, 
"number of replicas": 0, 
"active 1 primary. shards": 81, 
"active shards": 81, 
"relocating shards" 0, 
ninitializing shards": 0, 
"unassigned_shards": 0 


] 


"logstash-2015.05.30": { 
"status": "red", 
"number_of_shards" +. BL; 
"number of replicas": a 
"active 1 primary shards" : 80, 
"active _shards": 80, 
"relocating shards"? 0, 
"initializing shards": 0, 

"unassigned shards": 1 

ty 

http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


这 就 看 到 了 ， 是 logstash-2015.05.30 索 引 里 ， 有 一 个 分 片 一 直 未 能 成 功 分 配 ， 导 致 集群 状态 异常 的 。 


过 ， 一 般 来 说， 集群 健康 接口 还 是 只 用 来 简单 监控 一 下 集群 状态 是 否 正常 。 一 旦 收 到 异常 报警 ， 具 体 确 定 unassign shard 的 情况 ， 更 推荐 使 用 kopf 工 具 在 页 面 查看 。 


14.1.2 ”节点 状态 


集群 状态 是 从 最 上 层 高 度 来 评估 你 的 集群 概况 ， 而 节点 状态 则 更 底层 一 些 ， 会 返回 给 你 集群 里 每 个 节点 的 统计 信息 。 这 个 接口 的 信息 极为 丰富 ， 从 硬件 到 数据 到 线程 ， 应 有 尽 有 。 本 节 会 以 单 节 点 为 
分 段 介绍 各 部 分 数据 的 含义 。 


例 


首先 ， 通 过 如 下 命令 获取 节点 状态 : 


# curl -XGET 127.0.0.1:9200/_nodes/stats 


返回 数据 的 第 一 部 分 是 节点 概要 ， 主 要 就 是 节点 的 主机 名 、 网 卡 地 址 和 监听 端口 等 。 这 部 分 内 容 除 了 极 少数 时 候 (一 个 主机 上 运行 了 多 个 Elasticsearch 节 点 ) 一 般 没有 太 大 


"cluster name": "elasticsearch zach", 
"nodes": { = 
"UNr6ZMf£5Qk-YCPA_L18BOQ": { 
"timestamp": 1408474151742, 
"name": "Zach", 
"transport address": "192.168.1.131:9300", 
"host": "192.168.1.131", 
"ip": "192.168.1.131:9300", 
"roles": [ 

"master", 

"data", 

"ingest" 


|, 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


2. 索 引信 息 


这 部 分 内 容 会 列 出 该 节点 上 存储 的 所 有 索引 数据 的 状态 统计 ， 如 下 所 示 。 


1) 首先 是 概要 : 
"indices": { 
"docs": { 
"count": 6163666, 
"deleted": 0 

ty 

"store": { 


"size in bytes": 2301398179, 
"throttle time in millis": 122850 
ty 


docs.count 是 节点 上 存储 的 数据 条 目 总 数 ; store.size_in_bytes 是 节点 上 存储 的 数据 占用 磁盘 的 实际 大 小 。 而 store.throttle time_in_millis 则 是 Elasticsearch 进 程 在 做 segment merge 时 出 现 磁盘 限 速 
的 时 长 。 如 果 你 在 Elasticsearch 的 日 志 里 经 常会 看 到 限 速 声明 ， 那 么 这 里 的 数值 也 会 偏 大 。 


2) 写 入 性 能 


"indexing": { 

"index total": 803441, 

"index time in millis": 367654, 
"index current": 99, 

"delete total": 0, 

"delete time in millis": 0, 
"delete current": 0 

"noop update total" : 0, 

"is throttled" : false, 
"throttle time in millis" : 0 
Fe 


indexing.index total 是 一 个 递增 累计 数 ， 表 示 节 点 完成 的 数据 写 入 总 次 数 。 至 于 后 面 又 删除 了 多 少 ， 额 外 记录 在 indexing.delete_ total, indexing.is throttled 是 2.0 版 之 后 新 增 的 计数 ， 因 为 
Elasticsearch 从 此 开始 自动 管理 throttle， 所 以 有 了 这 个 计数 。 


3) 读 取 性 能 


"get": { 
"total": 6, 
"time in millis": 2, 
“exists total": 5, 
"exists time in millis": 2, 


"missing total": 1, 
"missing time in millis": 0, 
"current": 


, 


get 这 里 显示 的 是 直接 使 用 id 读 取 数 据 的 状态 。 


4) 搜索 性 能 : 


"search": { 
"open_contexts": 0, 

"query total": 123, 

"query time in millis": 531, 
"query current™: 0, 

"fetch total": 3, 

"fetch time in millis": 55, 
"fetch_current™: 0 


] 


search.open_contexts 表 示 当 前 正在 进行 的 搜索 ， 而 search.query_total 表 示 节 点 启动 以 来 完成 的 总 搜索 数 ，search.query time_in_millis 表 示 完 成 上 述 搜索 数 花费 时 间 的 总 和 。 显 
%&, query_time_in_millis/query total 越 大 ， 说 明 搜索 性 能 越 差 ， 可 以 通过 Elasticsearch 的 slowlog， 获 取 具 体 的 搜索 语句 ， 做 出 针对 性 的 优化 。 


search.fetch_total 等 指标 含义 类 似 。 因 为 Elasticsearch 的 搜索 默认 是 query-then-fetch 式 的 ， 所 以 fetch 一 般 是 少 而 快 的 。 如 果 计 算出 来 search.fetch_time _in_millis>search.query time _in_millis， 
说 明 有 人 采用 了 较 大 的 size 参 数 做 分 页 查询 ， 通 过 slowlog 抓 到 具体 的 语句 ， 相 机 优化 成 scan 式 的 搜索 。 


5) 段 合 并 性 能 : 


"merges": { 

"current": 0, 

"current_docs": 0, 

"current size in bytes": 0, 
"total": 1128, ` 
"total_time_in_millis": 21338523, 
"total docs": 7241313, 
"total size in bytes": 5724869463 
tr 


merges 数 据 分 为 两 部 分 ，current 开 头 的 是 当前 正在 发 生 的 段 合 并 行为 统计 ; total 开 头 的 是 历史 总 计数 。 一 般 来 说 ， 作 为 ELK stack 应 


， 都 是 以 数据 写 入 压力 为 主 的 ，merges 相 关 数 据 会 比较 突出 。 
6) 过 滤器 缓存 : 


"filter cache": { 
"memory size_in bytes": 48, 
"evictions": 0 


lr 


filter cache.memory _size_in_bytes 表 示 过 滤器 缓存 使 用 的 内 存 ，filter_cache.evictions 表 示 因 
缓存 。 


内 存 满 被 回收 的 缓存 大 小 ， 这 个 数 如 果 较 大 ， 说 明 你 的 过 滤器 缓存 大 小 不 足 ， 或 者 过 滤器 本 身 不 太 适 合 


请 注意 ， 过 滤器 缓存 是 建立 在 segment 基 础 上 的 ， 在 当天 新 日 志 的 索引 中 ， 存 在 大 量 的 或 多 或 少 的 segment。 一 个 已 经 5GB 大 小 的 segment 和 一 个 刚刚 2MB 大 小 的 segment， 发 生 一 次 
filter_ cache.evictions 对 搜索 性 能 的 影响 区 别 是 巨大 的 。 但 是 节点 状态 中 本 身 这 个 计数 并 不 能 反应 这 点 | 


区 别 。 所 以 ， 尽 力 减少 这 个 数值 ， 但 如 果 搜 索 本 身 感觉 不 慢 ， 那 么 有 几 个 也 无 所 谓 。 
7) id 缓存 : 


"id cache": 
"memory_size in bytes": 0 


b 


id_cache 是 parent/child mappings 使 用 的 内 存 。 不 过 在 ELK stack 场 景 中 ， 一 般 不 会 用 到 这 个 特性 ， 所 以 此 处 数据 应 该 一 直 是 0。 


8) fielddata: 


"fielddata": { 
"memory_size in bytes": 0, 
"evictions": 0 


b 


此 处 显示 fielddata 使 用 的 内 存 大 小 。fielddata 用 来 做 聚合 、 排 序 等 工作 。 


【= fielddata.evictions 应 该 永远 是 0。 一 旦 发 现 这 个 数据 大 于 0， 请 立刻 检查 自己 的 内 存 配 置 、fielddata 限 制 ， 以 及 请 求 语句 


9) segments: 


"segments": { 
"count": 319, 
"memory in bytes": 65812120 


r 


segments.count 表 示 节 点 上 所 有 索引 的 segment 数 目的 总 和 。 一 般 来 说 ， 一 个 索引 通常 会 有 50~ 150 个 segment。 再 多 就 对 写 入 性 能 有 较 大 影响 了 (可 能 merge 速 度 跟 不 上 新 segment 出 现 的 速度 ) 。 


所 以 ， 请 根据 节点 上 的 索引 数据 正确 评估 节点 segment 的 情况 。 


segment 会 导致 这 个 数值 迅速 变 大 。 


segments.memory in_bytes 表 示 segment 本 身 底 层 数据 结构 所 使 用 


的 内 存 大 小 。 像 索引 的 倒 排 表 、 词 典 、bloom filter (Elasticsearch1.4 以 后 已 经 默认 关闭 ) 等 ， 都 是 要 在 内 存 里 的 。 所 以 过 多 的 


3 .操作 系统 和 进程 信息 


操作 系统 信息 主要 包括 CPU、Loadavg、Memory 和 Swap 利 用 率 、 文 件 句柄 等 。 这 些 内 容 都 是 常见 的 监控 项 ， 本 书 不 再 袭 述 。 


进程 ， 即 JVM 信 息 ， 主 要 在 于 GC 相关 数据 。 对 不 了 解 JVM 的 GC 的 读者 ， 这 里 先 介绍 一 下 GC (垃圾 收集 ) 以 及 GC 对 Elasticsearch 的 影响 。 


E] 


定 大 小 的 内 存 块 ， 这 个 块 叫 作 heap (HE) 。JVM 会 把 heap 分 成 两 个 组 : 


Java 是 一 个 自动 垃圾 收集 的 编程 语言 ， 启 动 JVM 虚 拟 机 时 ， 会 分 配 到 


- Young 新 实例 化 的 对 象 所 分 配 的 空间 。 这 个 空间 一 般 来 说 只 有 100MB~500MB 大 小 。Young 空 间 又 分 为 两 个 survivor (幸存 ) 空间 。 当 Young 空 间 满 ， 就 会 发 生 一 次 young gc， 还 存活 的 对 象 ， 就 被 移入 幸 


存 空间 里 ， 已 失效 的 对 象 则 被 移 除 。 


Old 老 对 象 存储 的 空间 。 这 些 对 象 应 该 是 长 期 存活 而 且 在 较 长 一 段 时间 内 不 会 变化 的 内 容 。 


这 个 空间 会 大 很 多 ， 就 Elasticseatch 来 说 ， 一 节点 上 可 能 就 有 30GB 内 存 是 这 个 空间 。 前 面 提 到 的 young gc 中 ， 


如 果菜 个 对 象 连续 多 次 幸存 下 来 ， 就 会 被 移 进 Old 空间 内 。 而 等 到 Old 空间 满 ， 就 会 发 生 一 次 old gc， 把 失效 对 象 移 除 。 


听 起 来 很 美好 的 样子 ， 但 是 这 些 都 是 有 代价 的 ! 在 GC 发 生 的 时 候 ，JVM 需 要 暂停 程序 运行 ， 
答 ， 分 片 不 会 分 配 .…… 


收集 全 部 失效 对 象 。 在 这 期 间 ， 其 他 一 切 都 不 会 继续 运行 。 请 求 没有 响应 ，ping 没 有 应 


以 便 自己 追踪 对 象 


当然 ，young gc 一 般 来 说 执行 极 快 ， 没 太 大 影响 。 但 是 old 空 间 那么 大 ， 稍 慢 一 点 的 gc 就 意味 着 程 


内 部 对 象 ， 复 上 


JVM 本 身 对 GC 算 法 一 直 在 努力 优化 ，Elasticsearch 也 尽量 复 上 
稳定 性 最 大 的 影响 因子 。 


网 络 缓冲 ， 同 时 还 提供 像 Doc Values 这 样 的 特性 。 但 不 管 怎么 说，GC 性 能 总 是 我 们 需要 密切 关注 的 数据 ， 


， 这 太 危 险 了 。 


序 几 秒 乃 至 十 几 秒 的 不 可 | 


为 它 是 集群 


如 果 你 的 Elasticsearch 集 群 监控 里 发 现 经 常 有 很 耗 时 的 GC， 说 明 集 群 负载 很 重 ， 内 存 不 足 。 
也 随 之 在 集群 中 重新 迁移 ， 引 发 更 大 的 网 络 和 磁盘 MO， 正常 的 写 入 和 搜索 也 会 受到 影响 。 


在 节点 状态 数据 中 ， 以 下 部 分 就 是 JVM 相 关 的 数据 : 


严重 情况 下 ， 这 些 GC 导 致 节点 无 法 正确 响应 集群 之 间 的 ping， 可 能 就 直接 从 集群 里 退出 了 。 然 后 数据 分 片 


"jvm": { 
"timestamp": 1408556438203, 

"uptime in millis": 14457, 

"mem": T 一 

"heap _ used in bytes": 457252160, 

"heap used percent": 44, 

"heap _ committed in bytes": 1038876672, 
"heap max in bytes™: 1038876672, 

"non heap used in bytes": 38680680, 

"non heap committed in bytes": 38993920, 


b 


首先 可 以 看 到 的 就 是 堆 的 情况 。 其 中 这 个 heap_committed in_bytes 指 的 是 实际 被 进程 使 


的 内 存 ， 以 JVM 的 特性 ， 这 个 值 应 该 等 于 heap_max_in_bytes。heap_used _percent 则 是 一 个 更 直观 的 阔 值 


数据 。 当 这 个 数据 大 于 75% 时 ，Elasticsearch 就 要 开始 GC。 也 就 是 说 ， 如 果 节 点 的 这 个 数据 长 期 在 75% 以 上 ， 说 明 节 点 内 存 不 足 ，GC 可 能 已 经 很 慢 了 。 更 进一步 ， 如 果 到 85% 或 者 95% 了 ， 估 计 节 点 一 次 


GC 能 耗 时 10s 以 上 ， 甚 至 可 能 会 发 生 OOM 了 。 


继续 看 下 一 段 代 码 : 


"pools": { 
"young": { 
"used_in bytes": 138467752, 
"max in bytes": 279183360, 
"peak used in bytes": 279183360, 
"peak max in bytes": 279183360 
hy 
"survivor": { 
"used in bytes": 34865152, 
"max in bytes": 34865152, 
"peak_used_in bytes": 34865152, 
"peak max in bytes": 34865152 
tr 
"old": { 
"used in bytes": 283919256, 
"max in bytes": 724828160, 
"peak used in bytes": 283919256, 
"peak max in bytes": 724828160 


。 再 看 下 一 段 代 码 : 


这 段 代 码 里 面 列 出 了 young、survivor 和 old GC 区 域 的 情况 ， 不 过 一 般 来 说 用 途 不 大 
"gc": { 
"collectors": { 


"young": { 

"collection_count": 13, 
"collection time in millis": 923 
ty 

"old": { 

"collection count": 0, 
"collection time in millis": 0 


} 


这 里 显示 的 young 和 old gc 的 计数 和 耗 时 。young gc 的 count 一 般 比 较 大 ， 这 是 正常 情况 。 


old gc 的 count 应 该 就 保持 在 比较 小 的 状态 ， 包 括 耗 时 的 collection_time_in_millis 也 应 该 很 小 。 注 意 这 两 个 


计数 都 是 累计 的 ， 所 以 对 于 一 个 长 期 运行 的 系统 ， 不 能 拿 这 个 数值 直接 做 报警 的 判断 ， 应 该 是 取 两 次 节点 数据 的 差 值 。 有 了 差 值 之 后 ， 再 来 看 耗 时 的 问题 ， 一 般 来 说 ， 一 次 young gc 的 耗 时 应 该 在 


1~2ms, old gc 在 100ms 左 右 。 如 果 这 个 耗 时 有 量 级 上 的 差距 ， 建 议 打 开 slow-GC 


Ù, 


4 线程 池 信息 


体 研 究 原 


因 。 


Elasticsearch 内 部 是 保持 着 几 个 线程 池 的 ， 不 同 的 工作 由 不 同 的 线程 池 负责 。 一 
实际 帮助 一 一 能 干 活 的 CPU 就 那么 些 个 数 。 所 以 这 段 状 态 数据 目的 不 是 上 


股 来 说 ， 每 个 池子 的 工作 线程 数 跟 你 的 CPU 核 数 一 样 。 之 前 有 传言 中 的 优化 配置 是 加 大 这 方面 的 配置 项 ， 其 实 没有 什么 
作 Elasticsearch 配 置 调 优 ， 而 是 作为 性 能 监控 ,方便 优化 你 的 读 写 请 求 。 


Elasticsearch 在 index、bulk、search、get、merge 等 各 种 操作 都 有 专门 的 线程 池 ， 大 家 的 统计 数据 格式 都 是 类 似 的 : 


"index": { 
"threads": 
"queue": 0, 
"active": 0, 
"rejected": 0, 
"largest": 1, 
"completed": 1 
} 


1, 


在 这 些 数据 中 ， 最 重要 的 是 rejected 数 据 。 当 线程 中 所 有 的 工作 线程 都 在 忙 ， 


即 active==threads， 后 续 的 请 求 就 会 暂时 放 到 排队 的 队列 里 ， 即 queue > 0。 但 是 每 个 线程 池 的 queue 也 是 有 大 小 限制 


AY, 默认 是 100。 如 果 后 续 请 求 超过 100， 则 意味 着 Elasticsearch 无 法 接受 请 求 了 ， 它 会 拒绝 后 续 请 求 。 


如 果 你 发 现 你 的 Elasticsearch 服 务 返回 数据 中 有 rejected， 很 可 能 就 是 你 在 发 送 bulk 写 入 的 时 候 碰 到 HTTP 状 态 码 429 的 响应 报错 了 。 事 实 上 ， 集 群 的 承载 能 力 是 有 上 限 的 。 如 果 你 集群 每 秒 就 能 写 入 
10000 条 数据 ， 以 其 浪费 内 存 多 放 几 条 数据 在 排队 ， 还 不 如 直接 拒绝 掉 ， 至 少 可 以 让 你 知道 到 瓶颈 了 。 


另外 有 一 点 可 以 指出 的 是 ， 因 为 bulk queue 里 的 数据 是 维护 在 内 存 中 ， 所 以 节点 发 生意 外 死机 的 时 候 ， 是 会 丢失 的 。 


如 果 你 碰 到 bulk rejected， 可 以 尝试 以 下 步骤 : 


1) 暂停 所 有 的 写 入 进程 。 


2) 从 bulk 响 应 中 过 滤 出 来 rejected 的 那 部 分 。 因 为 bulk index 中 的 大 部 分 可 能 已 经 成 功 了 。 


3) 重 发 一 次 失败 的 请 求 。 


4) 恢复 写 入 进程 ， 或 者 重新 来 一 次 上 述 步骤 。 


大 家 可 能 看 出 来 了 ， 没 错 ， 对 rejected 其 实 压根 没什么 特殊 的 操作 ， 重 试 一 次 而 已 。 


当然 ， 如 果 这 个 rejected 是 持续 存在 并 增长 的 ， 那 重 试 也 无 济 于 事 。 你 可 能 需要 考虑 


如 果 确 实 没 问题 ， 那 么 可 能 


5. 文 件 系统 和 网 络 


数据 继续 往 下 走 ， 是 文件 系统 和 网 络 的 数据 。 文 件 系 统 方面 ， 不 管 是 剩余 空间 还 是 /O 数 据 ， 都 推荐 大 家 通过 更 传统 的 系统 层 监控 手段 来 完成 。 而 网 络 数据 方面 ， 


"transport": { 
"server open": 13, 
"rx count": 11696, 


"rx size in bytes": 1525774, 
"tx count": 10282, 
"tx size in bytes": 1440101928 


tr 
"http": { 
"current_open": 4, 
"total_opened": 23 
hy 


己 的 集群 是 否 足以 支撑 当前 的 写 入 速度 要 求 。 


因为 客户 端 并 发 太 多 ， 超 过 集群 的 bulk threads 总 数 了 。 


尝试 减少 写 入 进程 的 个 数 ， 改 成 加 大 每 次 bulk 请 求 的 size。 


我 们 知道 Elasticsearch 同 时 运行 着 transport 和 http， 上 默认 分 别 是 9300 端 口 和 9200 端 


会 有 一 定 大 小 。 而 http.current open 则 是 实际 连接 上 来 的 HTTP 客 户 端的 数量 ， 考 虑 到 HTTP 建 连 的 消耗 ， 强 烈 建议 大 家 使 用 keep-alive 长 连接 的 客户 端 。 


6.Circuit Breaker 


继续 往 下 是 circuit breaker 的 数据 ， 包 括 request、fielddata、in_flight_requests 和 parent 四 种 。 内 容 如 下 : 


"in flight _ requests": { 
“"maximum_size_in bytes": 623326003, 
"maximum size": "594,4mb", 
"estimated size in bytes": 0, 
"estimated_size": "0b", 
"overhead": 1.03, 
"tripped": 0 


主要 有 两 部 分 内 容 : 


]。 由 于 Elasticsearch 使 用 了 一 些 transport 连 接 来 维护 节点 内 部 关系 ， 所 以 transport.server open 正常 情况 下 一 直 


in_flight_requests 是 5.0 版 本 新 加 入 的 一 个 控制 。 在 过 去 版 本 中 ， 索 引 速 度 较 慢 ， 而 入 口 流量 过 大 会 导致 Client 节 点 在 分 发 bulk 流 量 的 时 候 没 有 限 速 而 产生 OOM。 现 在 可 以 直接 对 过 大 的 流量 返回 失败 


7.ingest 


最 后 是 ingest 节 点 独 有 的 ingest 状 态 数据 。 


"ingest" : { 

“Ete” + { 
“souk” > 0, 
"time in millis" : 0, 
"current™ : 0, 
"failed" : 0 

, 

"pipelines" : { 
"set-something" : { 


"count" : 0, 


"time in millis” : 0, 
"current" : 0, 
"failed" : 0 


会 列 出 每 个 定义 好 的 pipeline 以 及 最 终 总 体 的 ingest 处 理 量 、 当 前 处 理 中 的 数据 量 和 处 理 耗 时 等 。 


14.1.3 ”热线 程 状态 


除了 stats 信 息 以 外 ，/_nodes/ 下 还 有 另 一 个 监控 接 


# curl -XGET 'http://127.0.0.1:9200/_nodes/_local/hot_threads?interval=60s' 


该 接口 会 返回 在 interval 时 长 内 ,该 节点 消耗 资源 最 多 的 前 三 个 线程 的 堆栈 情况 。 这 对 于 性 能 调 优 初期 ， 采 集 现状 数据 极为 有 用 。 


1414 索引 状态 


索引 状态 监控 接口 的 输出 信息 和 节点 状态 监控 接口 非常 类 似 。 一 般 情况 下 ， 这 个 接口 和 


站 独 监控 起 来 的 意义 并 不 大 。 


不 过 在 Elasticsearch 最 新 的 1.6 版 中 ， 新 加 入 了 对 索引 分 片 级 别 的 commit id 功 能 。 


回忆 一 下 之 前 原理 章节 的 内 容 ，commit 是 在 分 片 内 部 ， 对 每 个 Segment 做 的 。 而 数据 在 主 分 片 和 副本 分 片上 ， 是 由 各 自 节点 自行 做 segment merge 操 作 ， 所 以 副本 分 片 和 主 分 片 的 segment 的 
commit id 是 不 一 致 的 。 这 导致 Elasticsearch 副 本 恢复 时 ， 跟 主 分 片 比 对 commit id， 基 本 上 每 个 segment 都 不 一 样 ， 所 以 才 需 要 从 主 分 片 完整 重 传 一 份 数据 。 


新 加 入 分 片 级 别 的 commit id 后 ， 副 本 恢复 时 ， 先 比 对 跟 主 分 片 的 分 片 级 commit id， 如 果 一 致 ， 直 接 本 地 恢复 副本 分 片 内容 即 可 。 


查看 分 片 级 别 commit id 的 命令 如 下 : 


# curl 'http://127.0.0.1:9200/logstash-mweibo-2015.06.15/_stats/commit?level=shardsépretty' 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


"indices" : + 
"logstash-2015.06.15" : { 
"primaries" : { }, 
"total" : { }, 

"shards" : { 

non: Ef 

"routing" : { 

"state" : "STARTED", 
"primary" : true, 

"node" : "AqaYWFQURIKOZydvVgASEw", 
"relocating_node" : null 


r 
"commit" : { 


"generation" : 726, 

"user data" : { 

"translog id" : "1434297603053", 
"sync_id" "AU4LEh6wnBE6n0gcEXs5" 


tr 
"num docs" : 36792652 
} 


hd, 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


为 了 节约 频繁 变更 的 资源 消耗 ，Elasticsearch 并 不 会 实时 更 新 分 片 级 commit id。 只 有 连续 5 分 钟 没有 新 数据 写 入 的 索引 ， 才 会 触发 给 索引 各 分 片 更 新 commit id 的 操作 。 如 果 你 查看 的 是 一 个 还 在 新 写 
入 数据 的 索引 ， 看 到 的 内 容 应 该 是 下 面 这 样 : 


"commit" : { 

"generation" : 590, 

"user data" : { 

"translog id™" : "1434038402801" 


hy 
"num docs" : 29051938 
} 


141.5 ”任务 管理 


mu 


任务 是 Elasticsearch 中 早 就 有 的 一 个 概念 。 不 过 最 新 的 5.0 版 对 此 重 构 之 前 ， 我 们 只 能 看 到 对 于 master 来 说 等 待 执行 的 集群 级 别 的 任务 。 这 个 是 一 个 非常 狭隘 的 概念 。 重 构 以 后 ， 和 数据 相关 的 一 些 操 
作 ， 也 可 以 以 任务 形态 存在 ， 从 而 也 就 有 了 针对 性 的 管理 操作 。 困 扰 用 户 多 年 的 资源 隔离 问题 ， 可 能 就 可 以 得 到 大 大 缓解 。 


1. 等 待 执行 的 任务 列表 
首先 我 们 还 是 先 了 解 一 下 狭义 的 任务 ， 即 过 去 就 有 的 master 节 点 的 等 待 执行 任务 。 


之 前 章节 已 经 讲 过 ，master 节 点 负责 处 理 的 任务 其 实 很 少 ， 只 有 集群 状态 的 数据 维护 。 所 以 绝 大 多 数 情况 下 ， 这 个 任务 列表 应 该 都 是 空 的 。 


# curl -XGET http://127.0.0.1:9200/_cluster/pending tasks 


{ 
"tasks": [] 
} 


但 是 如 果 你 碰 上 集群 有 异常 ， 比 如 频繁 有 索引 映射 更 新 ， 数 据 恢 复 啊 ， 分 片 分 配 或 者 初始 化 的 时 候 反复 出 错 ， 就 会 看 到 一 些 任务 列表 了 : 


{ "tasks" : [ { "insert_order": 767003, "priority": "URGENT", "source": "create-index [logstash-2015.06.01], cause [api]", "time in queue millis": 86, "time in queue": "86ms" } 


可 以 看 到 列表 中 的 任务 都 有 各 自 的 优先 级 ，URGENT 优 先 于 HIGH。 然 后 是 任务 在 队列 中 的 排队 时 间 ， 任 务 的 具体 内 容 等 。 


在 上 例 中 ， 由 于 磁盘 文件 损坏 ， 一 个 分 片 中 某 个 segment 的 实际 内 容 和 长 度 对 不 上 ， 叶 致 分 片 数据 恢复 无 法 正常 完成 ， 堵 塞 了 后 续 的 索引 映射 更 新 操作 。 这 个 错误 一 般 来 说 不 太 常见 ， 也 只 能 是 关闭 索 
引 ， 或 者 放弃 这 部 分 数据 。 更 常见 的 可 能 是 集群 存储 长 期 数据 导致 索引 映射 数据 确实 大 到 了 master 节 点 内 存 不 足以 快速 处 理 的 地 步 。 


这 时 候 ， 根 据 实际 情况 ， 可 以 有 以 下 几 种 选择 : 
“ 索引 就 是 特别 多 : 给 master 加 内 存 。 
- 索引 里 字段 太 多 : 改 用 nested object 方 式 节省 字段 数量 。 
:索引 多 到 内 存 不 够 了 : 把 一 部 分 数据 拆 出 来 另 一 个 集群 。 


2. 新 版 任务 管理 


新 版 本 的 任务 并 没有 独立 的 创建 接口 ， 你 发 起 的 具体 某 次 search、snapshot、reindex 等 操作 ， 自 动 就 成 为 了 一 个 任务 。 而 任务 的 列表 可 以 通过 /_tasks 或 者 /_cat/tasks 接 口 来 获取 。 和 其 他 接口 一 样 ， 
手工 操作 选用 cat， 写 程序 的 时 候选 用 JSON 接 口 ， 如 下 所 示 : 


curl -XGET 'localhost:9200/_cat/tasks?v' 

action task_id parent_task_id type start_time timestamp running time ip node 

cluster:monitor/tasks/lists -ANcpn_JTI-Zs93fGAfhjw:779 -transport 1477891751674 13:29:11 170.2micros 127.0.0.1 -ANcpn 
cluster:monitor/tasks/lists[n] -ANcpn_JTI-Zs93£GAfhjw:780 -ANcpn_JTI-Zs93fGAfhjw:779 direct 1477891751674 13:29:11 60.6micros 127.0.0.1 -ANcpn_ 
indices:data/write/reindex rlA2WoRbTwKZ516z6NEs5A:916 -transport 1477891751674 13:29:11 212.5micros 127.0.0.1 rlA2WoR 


上 面 是 一 个 正常 运行 中 的 集群 的 任务 列表 。 除 了 一 个 reindex 任 务 ， 没 有 什么 recovery 的 麻烦 事 儿 ， 很 好 。 


如 果 想 要 取消 某 个 任务 ， 比 如 上 面 的 reindex， 可 以 像 这 样 运行 : 


curl -XPOST 'localhost:9200/_tasks/task_id:916/_cancel' 


而 search 任 务 和 reindex 任 务 不 同 。Elasticsearch 从 5.1.1 版 本 开始 支持 取消 掉 还 在 运行 的 search 任 务 。 但 是 这 个 行为 并 不 能 立刻 生效 。 


默认 情况 下 ， 对 search task 的 管理 粒度 是 以 segment 为 单位 的 。 也 就 是 说 ， 这 个 搜索 会 在 执行 完 当 前 segment 之 后 才 停止 。 如 果 你 的 历史 索引 已 经 经 过 forcemerge 接 口 优化 ， 一 个 分 片 里 只 有 一 个 
segment， 那 么 这 个 cancel 可 以 认为 就 是 完全 无 效 的 ! 


对 于 这 种 情况 ，Elasticsearch 提 供 了 另 一 种 更 细 粒 度 但 是 也 更 消耗 资源 的 办 法 。 可 以 使 用 如 下 命令 : 


curl -XPOST 'localhost:9200/_cluster/settings' -d'{ 
"persistent" : { 
"search. low_level_cancellation" : true 
p | 


这 时 候 ， 所 有 的 搜索 任务 ， 都 会 定期 检查 自己 是 否 被 取消 了 。 这 也 可 能 导致 你 本 来 就 比较 慢 的 搜索 ， 执 行 时 间 更 加 漫长 。 


目前 来 说 ， 能 做 的 只 有 这 些 了 。Elasticsearch 还 不 支持 诸如 挂 起 、 暂 停 之 类 更 复杂 的 任务 操作 。 让 我 们 期 待 未 来 的 发 展 吧 。 


14.1.6 ”cat 接口 的 命令 行使 用 


之 前 介绍 的 各 种 接口 数据 ， 其 响应 数据 都 是 JSON 格 式 ， 更 适用 于 程序 处 理 。 对 于 我 们 日 常 运 维 ， 在 Linux 命 令 行 终端 环境 来 说 ， 简 单 的 分 行 和 分 列表 格 才 是 更 方便 的 样式 。 为 此 ，Elasticsearch 提 供 了 
cat 接 口 。 


cat 接 口 可 以 读 取 各 种 监控 数据 ， 可 用 接口 列表 如 下 : 
+ /_cat/nodes 

- /_cat/shards 

- /_cat/shards/ {index} 

- /_cat/aliases 

- /_cat/aliases/ {alias} 

- /_cat/tasks 

+ /_cat/master 

- /_cat/plugins 

+ /_cat/fielddata 

- /_cat/fielddata/ {fields} 

- /_cat/pending_tasks 

- /_cat/count 

- /_cat/count/ {index} 

- /_cat/snapshots/ {repository} 
+ /_cat/recovery 

- /_cat/recovery/ {index} 

+ /_cat/segments 

- /_cat/segments/ {index} 

+ /_cat/thread_pool 

- /_cat/thread_pool/ {thread_pools} /_cat/nodeattrs 
+ /_cat/allocation 

+ /_cat/repositories 

+ /_cat/health 

- /_cat/indices 

- /_cat/indices/ {index} 


1. 集 群 状态 


还 是 以 最 基础 的 集群 状态 为 例 ， 采 用 cat 接 口 查 询 集群 状态 的 命令 如 下 : 


# curl -XGET http://127.0.0.1:9200/_cat/health 
1434300299 00:44:59 es1003 red 39 27 2589 1505 4 1 0 0 - 100.0% 


如 果 单 看 这 行 输出 ， 或 许 不 熟悉 的 用 户 会 有 些 茫然 。 可 以 通过 添加 参数， 输出 表 头 : 


# curl -XGET http://127.0.0.1:9200/_cat/health?v 
epoch timestamp cluster status node.total node.data shards pri relo init unassign pending_tasks max_task_wait_time active_shards_percent 
1434300334 00:45:34 es1003 green 39 27 2590 1506 5 0 0 0 - 100.0% 


# curl -XGET http://127.0.0.1:9200/_cat/nodes?v 


host ip heap.percent ram.percent load node.role master name 

esnodel09 10.19.0.109 62 69 6.37 d = 10.19.0.109 
esnode096 10.19.0.96 63 69 0.29 - s 10.19.0.96 
esnode100 10.19.0.100 56 79 0.07 - m 10.19.0.100 


跟 集群 状态 不 一 样 的 是 ， 节 点 状态 数据 太 多 ，cat 接 口 不 方便 在 一 行 表格 中 放下 所 有 数据 。 所 以 只 默认 返回 最 基本 的 内 存 和 负载 数据 。 具 体 想 看 某 方面 的 数据 ， 也 是 通过 请 求 参数 的 方式 额外 指明 。 比 如 
想 看 heap 百 分 比 和 最 大 值 : 


# curl -XGET 'http://127.0.0.1:9200/_cat/nodes?véh=ip, port, heapPercent, heapMax' 
ip port heapPercent heapMax 
192.168.1.131 9300 66 25gb 


h 请 求 参数 可 用 的 值 ， 可 以 通过 ?help 请求 参数 来 查询 : 


# curl -XGET http://127.0.0.1:9200/_cat/nodes?help 


id | id,nodeId | unique node id 

host Ih | host name 

ip li | ip address 

port | po | bound transport port 
heap.percent | hp, heapPercent | used heap ratio 

heap.max | hm, heapMax | max configured heap 
ram.percent | xp, ramPercent | used machine memory ratio 
ram.max | rm, ramMax | total machine memory 

load [1 | most recent load avg 

node. role | x,xrole,dc,nodeRole | d:data node, c:client node 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


中 间 第 二 列 就 是 对 应 的 请 求 参数 的 值 及 其 缩写 。 也 就 是 说 以 上 示例 还 可 以 写成 : 


# curl -XGET http://127.0.0.1:9200/_cat/nodes?v&h=i, po, hp, hm 


3. 索 引 状 态 


查询 索引 列表 和 存储 的 数据 状态 是 也 是 cat 接 口 最 常用 的 功能 之 一 。 为 了 方便 阅读 ， 默 认输 出 时 会 把 数据 大 小 以 更 可 读 的 方式 自动 换算 成 合适 的 单位 ， 比 如 3.2tb 这 样 。 


如 果 你 打算 通过 shell 管 道 做 后 续 处 理 ， 那 么 可 以 加 上 ? bytes 参 数 ， 指 明 统 一 采用 字 节 数 输出 ， 这 样 保证 在 同一 个 级 别 上 排序 : 


# curl -XGET http://127.0.0.1:9200/_cat/indices?bytes=b | sort -rnk8 


green open logstash-mweibo-2015.06.12 26 1 754641614 0 2534955821580 
1256680767317 

green open logstash-mweibo-2015.06.14 27 1 855516794 0 2419569433696 
1222355996673 

4 分 片 状态 


# curl -XGET http://127.0.0.1:9200/_cat/shards?v 

index shard prirep state docs store ip node 
logstash-mweibo-hSview-2015.06.10 20 p STARTED 4690968 679.2mb 127.0.0.1 10.19.0.108 
logstash-mweibo-hSview-2015.06.10 20 r STARTED 4690968 679.4mb 127.0.0.1 10.19.0.39 
logstash-mweibo-hSview-2015.06.10 2 p STARTED 4725961 684.3mb 127.0.0.1 10.19.0.53 
logstash-mweibo-h5view-2015.06.10 2 r STARTED 4725961 684.3mb 127.0.0.1 10.19.0.102 


同样 ， 可 以 用 ?help 查询 其 他 可 用 数据 细节 。 比 如 每 个 分 片 的 segment.count: 


# curl -XGET 'http://127.0.0.1:9200/_cat/shards/logstash-mweibo-nginx-2015.06.14 
?v\éh=n,iic,sc' 
n lic sc 


10:19.0.72 0 42 
10.19.0.41 0 36 
10.19.0.104 0 32 
10.19.0.102 0 40 
5. 恢 复 状 态 


在 出 现 集群 状态 波动 时 ， 通 过 这 个 接口 查看 数据 迁移 和 恢复 速度 也 是 一 个 非常 有 用 的 功能 。 不 过 默认 输出 是 把 集群 历史 上 所 有 发 生 的 recovery 记 录 都 返回 出 来 ， 所 以 一 般 会 加 上 ?active_only 参 数 ， 仅 
列 出 当前 还 在 运行 的 恢复 状态 : 


# curl -XGET 'http://127.0.0.1:9200/_cat/recovery?active_only&v&h=i,s,shost, thost, 
fp,bp,tr,trp,trt' 

i s shost thost fp bp tr trp trt 

logstash-mweibo-2015.06.12 10 esnode041 esnode080 87.6% 35.3% 0 100.0% 0 

logstash-mweibo-2015.06.13 10 esnode108 esnode080 95.5% 88.3% 0 100.0% 0 

logstash-mweibo-2015.06.14 17 esnode102 esnode080 96.3% 92.5% 0 0.0% 118758 


6 线程 池 状 态 

curl -s -XGET http://127.0.0.1:9200/_cat/thread_pool?v 
node_name name active queue rejected 

esnode073 bulk 1 0 20669 

esnode073 fetch shard started 0 0 0 

esnode073 fetch shard store 0 0 0 

esnode073 flush 0 0 0 
esnode073 force merge 0 0 0 

esnode073 generic 0 0 p 

esnode073 get 0 0 0 

esnode073 index 0 0 50 

esnode073 listener 0 0 0 

esnode073 management 1 0 0 

esnode073 refresh 0 0 0 

esnode073 search 4 0 0 

esnode073 snapshot 0 0 0 

esnode073 warmer 0 0 0 


这 个 接口 的 输出 形式 和 5.0 之 前 的 版 本 有 了 较 大 变化 ， 把 不 同类 型 的 线程 状态 做 了 一 次 行列 转换 ， 大 大 减少 了 列 数 以 后 ， 更 加 合适 查看 了 。 


14.2 “日志 记录 


Elasticsearch 作 为 一 个 服务 ， 本 身 也 会 记录 很 多 日 志 信息 。 默 认 情 况 下 ， 日 志 都 放 在 4$ES_HOME/logs/ 目 录 里 。 


日 志 配 置 在 Elasticsearch 5.0 中 改 成 了 使 用 log4j2.properties 文 件 配置 ， 包 括 日 志 滚动 的 方式 、 命 名 等 ， 都 和 标准 的 log4j2 一 样 。 唯 一 的 特点 是 : Elasticsearch 导 出 了 一 个 变量 叫 ${sys: es.logs}， 指 向 


你 在 elasticsearch.yml 中 配置 的 path.logs 地 址 : 


appender. index_search_slowlog_rolling.filePattern = ${sys:es.logs}_index_search_slowlog-%d{yyyy-MM-dd} . log 


动态 调整 。 比 如 ， 如 果 你 的 节点 一 直 无 法 正确 地 加 入 集群 ， 你 可 以 将 集群 自动 发 现 方面 的 日 志 级 别 修改 成 DEBUG ， 来 关注 这 方面 的 问题 : 


具体 的 级 别 等 级 也 可 以 通过 /_cluster/settings 接 口 


# curl -XPUT http://127.0.0.1:9200/_cluster/settings -d' 


"transient" : { 
"logger.discovery" : "DEBUG" 
}t l 

性 能 日 志 


除了 进程 状态 的 日 志 输出 ，Elasticsearch 还 支持 跟 性 能 相关 的 日 志 输出 。 针 对 数据 写 入 、 检 索 和 读 取 这 三 个 阶段 ， 都 可 以 设置 具体 的 慢 查询 阔 值 ， 以 及 不 同 的 输出 等 级 。 


配置 一 组 集群 各 索引 共用 的 参数 以 外 ， 还 可 以 针对 每 


此 外 ， 慢 查询 日 志 是 针对 索引 级 别 的 设置 。 除 了 在 elasticsearch.yml 中 设置 (注意 ， 默 认 是 全 注释 不 开启 的 状态 ) 以 及 通过 /_cluster/settings 接 
个 索引 设置 不 同 的 参数 。 


比如 ， 我 们 可 以 先 设置 集群 共同 的 参数 : 


# curl -XPUT http://127.0.0.1:9200/_cluster/settings -d' 


"transient" : { 
"logger.index.search.slowlog" : "DEBUG", 
"logger.index.indexing.slowlog" : "WARN", 
"index.search.slowlog.threshold.query.debug" : "10s", 
"index.search.slowlog.threshold.fetch.debug": "500ms", 
"index. indexing.slowlog.threshold.index.warn": "5s" 


p 


然后 针对 某 个 比较 大 的 索引 ， 调 高 设置 : 


# curl -XPUT http://127.0.0.1:9200/logstash-wwwlog-2015.06.21/_settings -d' 
{ 

"index.search.slowlog.threshold.query.warn" 
"index.search.slowlog.threshold.fetch.debug": 
"index. indexing.slowlog.threshold.index.info": "10s" 


} 


14.3 ”实时 bigdesk 方 案 


要 想 最 快 地 了 解 Elasticsearch 各 节点 的 性 能 细节 ， 推 荐 使 用 bigdesk 插 件 ， 其 原作 者 为 lukas-vlcek。 但 是 从 Elasticsearch 1.4 版 本 开始 就 不 再 更 新 了 。 国 内 有 用 户 fork 出 来 继续 维护 到 支持 5.0 版 
本 ，GitHub 地 址 为 : https://github.com/hlstudio/bigdesk。bigdesk 是 一 款 针对 Elasticsearch 性 能 的 开源 实时 监控 方案 ， 本 节 会 着 重 介 绍 其 中 最 重要 的 关注 区 域 。 


bigdesk 通 过 浏览 器 直 连 Elasticsearch 节 点 ， 发 起 RESTful 请 求 ， 并 泻 染 结果 成 图 。 所 以 其 安装 部 署 极 其 简单 : 


# git clone https://github.com/hpstudio/bigdesk 
# cd bigdesk/-site 


# python -mSimpleHTTPServer 
Serving HTTP on 0.0.0.0 port 8000 http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


图 14-1 所 示 。 


通过 浏览 器 打开 http://localhost:8000 即 可 看 到 bigdesk 页 面 。 在 endpoint 输 入 框 内 填写 要 连接 的 Elasticsearch 节 点 地 址 ， 选 择 refresh 间 隔 和 keep 时 长 ， 点 击 connect， 如 


127.0.0.1:8000/#nodes 


Refresh eve Keep| 5min $|history | | connect 


ES node REST endpoint nttp://192.168.0.2:9200 
nodes cluster 


图 14-1 bigdeski 22H 


Os 设置 refresh 间 隔 请 考虑 ELK stack 使 用 的 template 里 实际 的 refresh_interval 是 多 少 ， 否 则 你 可 能 看 到 波动 太 大 的 数据 ， 不 足以 说 明 情 况 。 


点 选 某 个 节点 后 ， 就 可 以 看 到 该 节点 性 能 的 实时 走势 。 一 般 重点 关注 JVM 性 能 和 索引 性 能 。 


有 关 JVM 部 分 的 截图 见 图 14-2。 


ES node REST endpoint nttp://10.19.0.101:9200 Refresh every (2sec fj Keep history | 


Cluster: es1003 10.19.0.100 || 10.19.0.101 || 10.19.0.102 || 10.19.0.103 || 10.19.0.104 || 10.19.0.105 || 10.19.0.106 || 10.19.0.107 || 10.19.0.108 
10.19.0.75 || 10.19.0.76 || 10.19.0.77 || 10.19.0.80 || 10.19.0.81 || 10.19.0.82 || 10.19.0.96 || 曙 10.19.0.97 || 10.19.0.98 || 10.19.0.99 


Selected node: 


Name: 10.19.0.45 

ID: hObI3kjxSia7 GABZ330ddw 

Hostname: esnode045.mweibo.bx.sinanode.com 
Elasticsearch version: 1.6.0 


JVM 


VM name: Java HotSpot(TM) 64-Bit Server VM Uptime: 5d 
VM vendor: Oracle Corporation Java version: 1.8.0_45 
VM version: 25.45-b02 PID: 32476 


Heap Mem Non-Heap Mem 


03:59 O4PM 04:01 04:02 03:59 04PM 04:01 04:02 03:59 O4PM 04:01 04:02 


Committed: 25gb Committed: 112.3mb Peak: 222 Total time (O/Y): Oms / 2720981ms 
Used: 20gb Used: 110.1mb Count: 172 Total count (O/Y): 0 / 35760 


Thread Pools 


Index 


o Queue 
o Peak 
© Count 


03:59 04PM 04:01 04:02 03:59 04PM 04:01 04:02 03:59 04PM 04:01 04:02 03:59 04PM 04:01 04:02 
Queue: 0 Queue: 0 Queue: 0 Queue: 0 


Peak: 25 Peak: 16 Peak: 16 Peak: 4 
Count: 0 Count: 0 Count: 6 Count: 0 


图 14-2 ”bigdesk 监 控 JVM 部 分 


有 关 数 据 读 写 性 能 部 分 的 截图 见 图 14-3。 


Total virtual: 576.1gb 


Open: 4017 Resident: 28.7gb 


Share: 1.1gb 


03:59 04 PM 04:01 04:02 04:03 


Series:( weighted avg + 
Sys total: 81179190ms 


03.59 04 PM 04.01 04.02 04:03 


Total: 1600% 
Process: 0% 


User total: 1805149460ms 


HTTP & Transport 


HTTP address: 


Transport address; 


inet[/10.19.0.45:9300] 


Bound address: 
Bound address: 
Publish address: 


Publish address: 


inet[/0:0:0:0:0:0:0:0%0:9300] 


inet[/10.19.0.45:9300] 


Transport: n/a 
HTTP: n/a 
HTTP total opened: na 


o 
#0 
03:59 04 PM 04:01 04:02 04: 


Series: (weighted avg 4) 
Rx: 1.1tb, #573723448 


Tx: 510.4gb, #573108098 


Indices 


Docs count: 2315178851 
Docs deleted: 0 


Flush: 33105, 3.7h 


Search requests per second (A) 


03:59 04 PM 04.01 04:02 04:03 


Query: 67219 
Fetch: 239 


Filter: 787593 


14.4 cerebro 


大 家 可 能 觉得 cerebro 这 个 名 字 很 陌生 ， 其 实 它 就 是 过 去 的 kopf 插 件 ! 
支持 新 版 本 下 Elasticsearch 的 管理 工作 。 


项 目地 址 为 : https://github.com/Imenezes/cerebro, 
安装 部 署 


单 页 应 用 的 安装 方式 都 非常 简单 ， 下 载 打 开 即 可 : 


Refresh: 139538, 5.8h 


图 14-3 ”bigdesk 监控 io 部 分 


为 Elasticsearch 5.0 不 再 支持 site plugin， 所 以 kopf 作 者 放弃 了 原 项 目 ， 另 起 炉灶 搞 了 cerebro， 以 独立 的 单 页 应 


形式 ， 继 续 


# git clone https://github.com/lmenezes/cerebro 
# cd cerebro 
# ./bin/cerebro 


然后 浏览 器 打开 http://localhost: 9000 即 可 。 


14.5 Zabbix trapper 方 案 


之 前 提 到 的 都 是 Elasticsearch 的 sites 类 型 插件 ， 其 实质 是 实时 从 浏览 器 读 取 cluster stats 接 口 数 据 并 泻 染 页 面 。 这 种 方式 直观 ， 但 不 适合 生产 环境 的 自动 化 监控 和 报警 处 理 。 要 达到 这 个 目标 ， 还 是 需 


要 使 用 诸如 nagios、zabbix、ganglia、collectd 这 类 监控 系统 。 


本 节 以 Zabbix 为 例 ， 介 绍 如 何 使 用 监控 系统 完成 Elasticsearch 的 监控 报警 。 


Github 上 有 好 几 个 版 本 的 ESZabbix 仓 库 ， 都 源 


Elasticsearch 来 说 ,已 经 不 推荐 使 用 了 。 


这 里 推荐 一 个 修改 使 用 了 官方 elasticsearch.py 库 的 衍生 版 。GitHub 地 址 为 : https://github.com/Wprosdocimo/Elasticsearch-zabbix, 


14.5.1 ”安装 配置 
仓库 中 包括 三 个 文件 : 
+ ESzabbix.py 
“ ESzabbix.userparm 


+ ESzabbix_templates.xml 


+ /etc/zabbix/zabbix_externalscripts/ESzabbix.py 


- /etc/zabbix/agent_include/ESzabbix.userparm 


然后 在 各 节点 安装 运行 ESzabbix.py 所 需 的 python 库 依赖 : 


# yum install -y python-pbr python-pip python-urllib3 python-unittest2 


# pip install elasticsearch 


安装 成 功 后， 你 可 以 试 运行 下 面 这 


了 命令 ， 看 看 命令 输出 是 否 正 常 : 


其 中 ， 前 两 个 文件 需要 分 发 到 每 个 Elasticsearch 节 点 上 。 如 果 节 点 上 运行 的 是 yum 安 装 的 zabbix， 二 者 的 默认 位 置 应 该 分 别 是 : 


自 Elastic 公 司 员工 untergeek 最 早 的 贡献 。 但 是 当时 Elasticsearch 还 没有 官方 python 客 户 端 ， 所 以 监控 程序 用 的 都 是 pyes 库 。 对 于 最 新 版 的 


# /etc/zabbix/zabbix_externalscripts/ESzabbix.py cluster status 


最 后 一 个 文件 是 zabbix server 上 的 模板 文件 ， 不 过 在 导入 模板 之 前 ， 还 需要 先 创 建 一 个 数值 映射 ， 因 为 在 模板 中 ， 设 置 了 集群 状态 的 触发 报警 ， 没 有 映射 的 话 ， 报 警 短信 只 有 0、1、2 数 字 不 是 很 易 


创建 数值 映射 ， 在 浏览 器 登录 zabbix-web， 在 菜单 栏 的 Zabbix Administration 中 选择 General 子 菜单 ， 然 后 在 右 侧 下 拉 框 中 点 击 Value Maping。 


选择 create， 新 建 表单 中 填写 : 


name: ES Cluster State 
0 Green 1 Yellow 2 Red 


完成 以 后 ， 即 可 在 Templates 页 中 通过 import 功 能 完成 导入 ESzabbix_templates.xml。 


在 给 Elasticsearch 各 节点 应 用 新 模板 之 前 ， 需 要 给 每 个 节点 定义 一 个 {$NODENAME} 宏 ， 具体 值 为 该 节点 elasticsearch.yml 中 的 node.name 值 。 从 统一 配 管 的 f 


14.5.2 ”模板 应 用 


导入 完成 后 ，Zabbix 里 多 出 来 三 个 可 


1) Elasticsearch Node&Cache 


模板 。 


second 共 计 4 个 item 监 控 项 。 在 完成 上 


2) Elasticsearch Service 只 有 一 个 监控 项 Elasticsearch service status， 做 进程 监控 ， 同 时 也 应 用 到 各 节点 上 。 


3) Elasticsearch Cluster 包括 11 个 监控 项 ， 如 下 列 所 示 。 


+ Cluster-wide records indexed per second 


* Cluster-wide storage size 


+ ElasticSearch Cluster Status 


+ Number of active primary shards 


+ Number of active shards 


+ Number of data nodes 


+ Number of initializing shards 


+ Number of nodes 


+ Number of relocating shards 


+ Number of unassigned shards 


+ Total number of records 


这 个 模板 下 都 是 集群 总 体 情况 的 监控 项 ， 所 以 ， 运 用 在 一 台 有 Elasticsearch 集 群 读 取 权限 的 3 


参考 阅读 : 


机 上 即 可 ， 比 如 Zabbix server, 


度 ， 建 议 大 家 都 设置 为 jp 地 址 。 


其 中 包括 两 个 Application: ES Cache 和 ES Node。 分 别 有 Node Field Cache Size、Node Filter Cache Size、Node Storage Size 和 Records indexed per 
面 说 的 宏 定义 后 ， 就 可 以 把 这 个 模板 应 用 到 各 节点 ( 即 监控 主机 ) ET. 


其 中 ，ElasticSearch Cluster Status 这 个 监控 项 连带 有 报警 的 触发 器 ， 并 对 应 之 前 创建 的 那个 Value Map。 


"untergeek 最 近 刚 更 新 了 他 的 仓库 ， 重 构 了 一 个 es_stats_zabbix 模 块 用 于 Zabbix 监 控 ， 有 兴趣 的 读者 可 以 参考 : https://github.com/untergeek /zabbix-grab-bag/blob/master/Elasti 


csearch/es_stats_zabbix.README.md 


第 15 章 ”Elasticsearch 在 运 维 监控 领域 的 其 他 应 用 


目前 Elasticsearch 虽 然 以 ELK stack 作 为 主打 产品 ， 但 其 优秀 的 分 布 式 设计 、 灵 活 的 搜索 评分 函数 和 强大 简洁 的 检索 聚合 功能 ， 在 运 维 领 域 也 衍生 


对 于 Elastic 公 司 来 说 ， 这 些 周边 应 用 ， 也 随时 可 能 成 为 它们 的 后 续 
提前 了 解 其 他 方面 的 多 种 可 能 ， 也 是 非常 有 意义 的 。 本 章 主要 介绍 以 下 


“Percolator 接 口 ， 这 是 Elasticsearch 中 非常 另类 的 接口 ， 可 以 用 于 实时 


+ Watchet 报 警 ， 介 绍 Elastic.co 公 司 推出 的 Watcher 报 警 产品 用 例 及 设 让 


标 产品 。 就 在 本 书 编写 期 间 ，packetbeat 就 被 Elastic 公 司 收购 了 ， 并 且 可 能 作为 未 来 数据 采集 端的 标准 应 用 。 所 以 ，ELK stack 用 户 
内 容 : 


过 滤 处 理 。 


上 思路， 读者 可 以 参照 设计 自己 的 Elasticseatch 报 警 产品 。 


“ grafana 可 视 化 : 这 是 原先 基于 Kibana 3 衍生 出 来 的 可 视 化 产品 ， 前 不 久 被 Influxdb 的 公司 收购 ， 是 目前 最 热门 的 时 序数 据 可 视 化 界面 。 


"时序 数据 库 ， 探 索 将 Elasticsearch 用 作 时 序数 据 库 存储 方面 的 可 能 性 。 对 比 其 与 Graphite、Zabbix 等 方案 的 优 劣 。 


“ Etsy 的 Kale 异 常 检测 ， 该 方案 巧妙 地 利用 了 Elasticsearch 的 相关 性 打分 机 制 ， 可 以 说 是 Elasticsearch 在 监控 领域 一 种 独特 的 运用 。 


15.1 ”Percolator 接 口 


在 运 维 体系 中 ， 监 控 和 报警 总 是 成 双 成 对 地 出 现 。ELK stack 在 时 序 统计 方面 的 便捷 ， 在 很 多 时 候 被 作为 监控 的 一 种 方式 在 使 用 。 那 么 ， 自 然 就 引申 出 一 个 问题 : ELK st 


对 于 简单 而 且 固 定 需求 的 模式 ， 我 们 可 以 在 Logstash 中 利用 filtewmetric 和 filter/ruby 等 插件 做 预 处 理 ， 直 接 output/nagios 或 output/zabbix 来 报警 ; 但 是 对 于 针对 全 


就 无 能 为 力 了 。 


目前 比较 通行 的 办 法 有 以 下 两 种 : 


1) 对 于 匹配 报警 ， 采 用 Elasticsearch 的 Percolator 接 口 做 响应 报警 。 


2) 对 于 时 序 统计 ， 采 用 定时 任务 方式 ， 发 送 Elasticsearch aggs 请 求 ， 分 析 响 应 体 报警 。 


Percolator 接 口 和 我 们 习惯 的 搜索 接口 正好 相反 ， 它 要 求 预先 定义 好 query， 然 后 通过 接口 提交 文档 看 能 匹配 上 哪个 query。 也 就 是 说 ， 这 是 一 个 实时 的 模式 过 滤 接 


5.0 版 中 ， 对 Percolator 功 能 做 了 大 幅度 改造 ， 现 在 已 经 没有 单独 的 接口 ， 而 是 作为 一 种 mapping 类 型 存在 。 也 就 是 说 ， 我 们 在 创建 索引 的 时 候 需要 预先 定义 。 


比如 我 们 通过 syslog 来 发 现 硬件 报错 的 时 候 ， 需 要 预先 定义 mapping: 


不 少 其 他 有 趣 的 应 用 方式 。 


ack 如 何 做 报警 ? 


局 的 、 更 复杂 的 情况 ，Logstash 


# curl -XPUT http://127.0.0.1:9200/syslog -d '{ 
"mappings" : { 
"syslog" : { 
"properties" : { 
"message" : { 
"type" : "text" 


, 
"severity" : { 
"type" : "long" 


"queries" : { 
"properties" : { 
"query" : { 
"type" : "percolator" 
} 


} 
p 


然后 我 们 往 syslog/queries 里 注册 两 条 percolator 请 求 规则 : 


# curl -XPUT http://127.0.0.1:9200/syslog/queries/memory -d '{ 


"query" : { 
"query string" : { 
"default field" : "message", 
"default_operator" : "OR", 


"query" : "mem DMA segfault page allocation AND severity:>2 AND program:kernel" 


i 
f 


' 


# curl -XPUT http://127.0.0.1:9200/syslog/queries/disk -d 


vf 


"query" : { 
"query string" : { 
"default_field" : "message", 
"default_operator" : "OR", 
"query" : "scsi sata hdd sda AND severity:>2 AND program:kernel" 


} 


然后 ， 将 标准 的 数据 写 入 请 求 做 一 点 改动 ， 通 过 搜索 接口 进行 : 


# curl -XPOST http://127.0.0.1:9200/syslog/_search -d '{ 
"query" : { 
"percolate" : { 
"field" : "query", 
"document_type" : "syslog", 


"document" : { 


"program" : "kernel", 
"severity" : 3, 
"message" : "swapper/0: page allocation failure: order:4, mode:0x4020" 


p 


得 到 如 下 结果 : 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/..., 


"hits": [ 
{ 
"index": "syslog", 
" type": "queries", 
"id": "memory", 


http://www. hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


从 结果 可 以 看 出 来 ， 这 条 syslog 日 志 匹 配 上 了 memory 异 常 。 接 下 来 就 可 以 发 送 给 报警 系统 了 。 


如 果 是 syslog 索 引 中 已 经 有 的 数据 ， 也 可 以 重新 过 一 遍 Percolator 查 询 。 比 如 我 们 有 一 条 之 前 已 经 写 入 到 http://127.0.0.1: 9200/syslog/cisco/1234567 的 数据 ， 如 下 命令 就 可 以 把 这 条 数据 再 过 一 次 


percolate: 


# curl -XPOST http://127.0.0.1:9200/syslog/_search -d '{ 


"query" : { 
"percolate" : { 
"field" : "query", 
"document_type" : "syslog", 
"index" "syslog", 
"type" n 


nid" : "1234567", 


利用 更 复杂 的 query DSL 做 Percolator 请 求 的 示例 ， 推 荐 阅读 官网 这 篇 geo 定 位 的 文章 


15.2 Watcher 报警 


针对 报警 的 需求 ，Elasticsearch 官 方 也 在 最 近 开 发 了 Watcher 商 业 产品 ， 与 Shield 一 样 以 Elasticsearch 揪 件 形式 存在 。 所 以 Watcher 和 Shield、Marvel 一 样 插件 式 安装 即 可 : 


: https://www.elastic.co/blog/using-percolator-geo-tagging. 


# bin/plugin -i elasticsearch/license/latest 
# bin/plugin -i elasticsearch/watcher/latest 


在 使 用 Watcher 时 ，Elasticsearch 也 提供 了 标准 的 RESTful 接 口 ， 示 例如 下 : 


# curl -XPUT http://127.0.0.1:9200/_watcher/watch/error_status -d' 
{ 


"trigger": { 
"schedule" : { "interval" : "5m" } 
ty 
"input! 5 { 
"search" : { 
"request" : { 
"indices" : [ "<logstash-{now/d}>", "<logstash-{now/d-1d}>" ], 
"body" : { 
"query" : { 
"filtered" : { 
"query" { "match" : { "status" : "error" }}, 
"filter" : { "range" : { "@timestamp" : { "from" : "now-5m" }}} 
} 
} 
} 
} 
} 
tr 
"condition" : { 
"compare" : { "ctx.payload.hits.total" : { "gt" : 0 }} 
] 
"transform" : { 
"search" : { 
"request" : { 
"indices" : [ "<logstash-{now/d}>", "<logstash-{now/d-1d}>" ], 
"body" : { 
"query" : { 
"filtered" : { 
"query" : { "match" : { "status" : "error" }}, 
"filter" : { "range" : { "@timestamp" : { "from" : "now-5m" }}} 
} 
hy 
"aggs" : { 
"topn" : { 
"terms" { 
"field" ; "userid" 
} 
} 
} 
} 
} 
} 
ty 
"actions" : { 
"email admin" : { 
"throttle period" : "15m", 
"email" : { 
"to" : "admin@domain", 
"subject" : "Found {{ctx.payload.hits.total}} Error Events", 
"priority" : "high", 
"body" : "Top10 users: \n{{#ctx.payload.aggregations.topn.buckets}}\t{{key}} 


{ {doc_count}}\n{{/ctx.payload.aggregations.topn.buckets}}" 
} 


p 


1) 每 5 分 钟 ， 向 最 近 两 天 的 logstash-yyyy.MM.dd 索 引发 起 一 次 条 件 为 最 近 五 分 钟 ，status 字 段 内 容 为 error 的 查询 请 求 。 


2) 对 查询 结果 做 hits 总 数 大 于 0 的 判断 。 


3) 如 果 为 真 ， 再 请 求 一 次 上 述 条 件 下 ，userid 字 段 的 Top 10 数 据 集 作为 后 续 处 理 的 来 源 。 
4) 如 果 最 近 15 分 钟 内 未 发 送 过 报警 ， 则 向 admin@ domain 邮 箱 发 送 一 个 标题 为 “Found N erroneous events”， 内 容 为 “Top10 users” 列 表 的 报警 邮件 。 


整个 请 求 体 顺序 执行 。 目 前 trigger 只 支持 scheduler 方 式 ，input 支 持 search 和 http 方 式 ，actions 支 持 email、logging 和 webhook 方 式 ，transform 是 可 选项 ， 而 且 可 以 设置 在 actions 里 ， 不 同 
actions 做 不 同 的 payload 转 换 。 


在 condition、transform 和 actions 中 ， 默 认 使 用 Watcher 增 强 版 的 xmustache 模 板 语言 ， 也 可 以 使 用 固化 的 脚本 文件 ， 例 如 ， 如 果 有 threshold_hits.groovy， 则 可 执行 : 


"condition" : { 
“script" i f 
"file" : "threshold hits", 
"params" : { 
"threshold" : 0 
} 
} 
} 


完整 的 Watcher 播 件 内 部 执行 流程 如 图 15-1 所 示 。 相 信 有 编程 能 力 的 读者 都 可 以 用 crontaby/at 配 合 curl、email 工 具 仿造 出 来 类 似 功能 的 shell 脚 本 。 
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check condition 
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for each action for each action 


transtorm 
payload 


unAck 


exec action 


done 


15-1 Watcher ii #Z 


如 果 需 要 一 款 开源 的 类 似 实现 ， 可 以 党 试 Yelp 开 源 的 ElastAlert 系 统 。 官 方 文档 地 址 为 : http://elastalert.readthedocs.org/。 


在 search 中 ， 对 indices 内 容 可 以 写 完整 的 索引 名 比如 syslog， 也 可 以 写 通 配 符 比 如 logstash-*， 还 可 以 写 时 序 索 引 动态 定义 方式 如 <logstash-{now/d}>。 而 这 个 动态 定义 ，Watcher 是 支持 根据 时 区 来 
确定 的 ， 这 个 需要 在 elasticsearch.yml 里 配置 一 行 : 


watcher.input.search.dynamic indices.time zone: '+08:00' 


15.3 ElastAlert 


ElastAlert 是 Yelp 公 司 开源 的 一 套用 Python2.6 写 的 报警 框架 。 属 于 后 来 Elastic.co 公 司 出 品 的 Watcher 同 类 产品 。 官 网 地 址 见 : http://elastalert.readthedocs.org/。 


15.3.1 安装 


这 里 介绍 的 比 官网 文档 要 复杂 一 点 ， 因 为 其 中 mock 模 块 安装 时 依赖 的 setuptools 要 求 版 本 在 0.17 以 上 ，CentOs6 默 认 的 不 够 ， 需 要 通过 yum 命 令 升级 ， 当 前 可 以 升级 到 的 是 0.18 版 : 


# yum install python-setuptools 

# git clone https://github.com/Yelp/elastalert.git 
# cd elastalert 

# python setup.py install 

# cp config.yaml.example config.yaml 


安装 完成 后 会 自 带 三 个 命令 : 


 elastalert-create-index ElastAlert 会 把 执行 记录 存放 到 一 个 ES 索引 中 ， 该 命令 就 是 用 来 创建 这 个 索引 的 ， 黑 认 情 况 下 ， 索 引 名 叫 elastalert_status。 其 中 有 4 个 _type， 都 有 自己 的 @timestamp 字 段 ， 所 以 同样 
也 可 以 用 kibana 来 查看 这 个 索引 的 日 志 记录 情况 。 


“ elastalert-rule-from-kibana 从 Kibana 3 已 保存 的 仪表 盘 中 读 取 Filtering 设 置 ， 帮 助 生 成 config.yaml 里 的 配置 。 不 过 注意 ， 它 只 会 读 取 他 tering， 不 包括 queries。 


- elastalert-test-rule 测 试 自 定义 配置 中 的 rule 设 置 。 


# python -m elastalert.elastalert --config ./config.yaml 


或 者 单独 执行 rules folder 里 的 某 个 rule: 


# python -m elastalert.elastalert --config ./config.yaml --rule ./examele_rules/one_rule.yaml 


15.3.2 ”配置 结构 
和 Watcher 类 似 (或 者 说 也 只 有 这 种 方式 ) ，ElastAlert 配 置 结构 也 分 几 个 部 分 ,但 是 它 有 自己 的 命 
1.query 部 分 


除了 有 关 ES 服 务 器 的 配置 以 外 ， 主 要 包括 如 下 配置 : 


-run_every: 用 来 设置 定时 向 ES 发 请 求 ， 上 默认 5 分 钟 。 

“ buffer time: 用 来 设置 请 求 里 时 间 字 段 的 范围 ， 默认 45 分 钟 。 

- rules_folder: 用 来 加 载 下 一 阶段 的 rule 设 置 ， 默 认 是 example_rules。 

“ timestamp_field: 用 于 设置 buffer time 时 针对 哪个 字段 ， 默 认 是 @timestamp。 

+ timestamp_type: 用 于 设置 timestamp_field 的 时 间 类 型 ，ElastAlert 内 部 也 需要 转换 成 时 间 对 象 ， 黑 认 是 ISO8601， 也 可 以 是 UNIX。 


2.rule 部 分 


rule 设 置 各 自 独 立 以 文件 方式 存储 在 ”rules folder? 设置 的 目录 里 。 其 中 可 以 定义 下 面 这 些 参数 : 


-name: 每 个 rule 需 要 有 自己 独立 的 name， 一 旦 重复 ， 进 程 将 无 法 启动 。 


“type: 选择 某 一 种 数据 验证 方式 。 


index: 从 某 类 索引 里 读 取 数 据 ， 目 前 已 经 支持 Ymd 格 式 ， 需 要 先 设置 use_sttftime_index: true， 然 后 匹配 索引 ， 配 置 形 如 : index: logstash-es-test-y%Y.%m.%d， 表 示 匹 配 logstash-es-test 名 称 开头 ， 以 年 月 
日 作为 索引 后 组 的 index。 


+ filter: 设置 向 ES 请 求 的 过 滤 条 件 。 
“ timeframe: 累积 触发 报警 的 时 长 。 


“ alert: 设置 触发 报警 时 执行 哪些 报警 手段 。 


不 同 的 type 还 有 自己 独特 的 配置 选项 。 目 前 ElastAlert 有 以 下 几 种 自 带 的 ruletype: 


‘any: 只 要 有 匹配 就 报警 ; 
+ blacklist: compare_key 字 段 的 内 容 匹配 上 blacklist 数 组 里 任意 内 容 。 
- whitelist: compare_key 字 段 的 内 容 一 个 都 没 能 匹配 上 whitelist 数 组 里 内 容 。 


- change: 在 相同 query_key 条 件 下 ，compare_key 字 段 的 内 容 ， 在 timeframe 范 围 内 发 送 变化 。 


+ frequency: 在 相同 query_key 条 件 下 ，timeframe 范 围 内 有 num_events 个 被 过 滤 出 来 的 异常 。 


- spike: 在 相同 query_key 条 件 下 ， 前 后 两 个 timeframe 范 围 内 数据 量 相差 比例 超过 spike_height。 其 中 可 以 通过 spike_type 设 置 具体 涨 跌 方向 是 up，down，both。 还 可 以 通过 threshold_ref 设 置 要 求 上 一 个 周期 
数据 量 的 下 限 ，threshold_cur 设 置 要 求 当前 周期 数据 量 的 下 限 ， 如 果 数 据 量 不 到 下 限 ， 也 不 触发 。 


+ flatline: timeframe 范 围 内 ， 数 据 量 小 于 threshold 阅 值 。 

- new_term: fields 字 段 新 出 现 之 前 terms_window_size (默认 30 天 ) 范围 内 最 多 的 terms_size (默认 50) 个 结果 以 外 的 数据 。 

< cardinality: 在 相同 query_key 条 件 下 ，timeframe 范 围 内 cardinality_field 的 值 超过 max_cardinality 或 者 低 于 min_cardinality。 
3.alert 部 分 


alert 配 置 是 一 个 数组 ， 目 前 支持 command、email、jira、opsgenie、sns、hipchat、slack 等 方式 。 


command 最 灵活 也 最 简单 。 默 认 会 采用 % (fieldname) s 格 式 : 


command: ["/bin/send_alert", "--username", "%(username)s", "--time", "%(key_as_string)s" 


如 果 要 用 得 比较 多 ， 可 以 开启 pipe_match_json 参 数 ， 会 把 整个 过 滤 到 的 内 容 ， 以 一 整个 JSON 字 符 串 的 方式 管道 输入 指定 脚本 。 


email 方 式 采用 SMTP 协 议 ， 所 以 有 一 系列 smtp_* 配 置 ， 然 后 加 上 email 参 数 提供 收 件 人 地 址 数组 。 


特殊 的 是 ，email 和 jira 两 种 方式 ，ElastAlert 提 供 了 一 些 内 容 格式 化 模板 。 


比如 可 以 这 样 控制 邮件 标题 : 


alert_subject: "Issue {0} occurred at {1}" 
alert_subject_args: 

- issue.name 

- "@timestamp" 


而 默认 的 邮件 内 容 模板 是 : 


body = rule_name 
[alert text] 
ruletype_text 
{top_counts} 
{field_values} 


这 些 内 容 同样 可 以 通过 alert_text (及 对 应 alert_text_args) 等 来 灵活 修改 。 


此 外 ，alert 还 有 一 系列 控制 报警 风暴 的 选项 ， 从 属于 rule: 

- aggregation: 设置 一 个 时 长 ， 则 该 时 长 内 所 有 报警 最 终 合 在 一 起 发 一 次 。 

- realert; 设置 一 个 时 长 ， 则 该 时 长 内 ， 相 同 query_key 的 报警 只 发 一 个 。 

“ exponential_realert: 设置 一 个 时 长 ， 必 须 大 于 realert 设 置 。 则 在 realert 到 exponential_realert 之 间 ， 每 次 报警 后 ，realert 自 动 翻 倍 。 


4.enhancements 部 分 


match_enhancements 配 置 用 于 设置 一 个 数组 ， 在 报警 内 容 发 送 到 alert 之 前 修改 具体 数据 。ElastAlert 默 认 不 提供 具体 的 enhancements 实 现 ， 需 要 自己 扩展 。 


不 过 ， 作 为 通用 方式 ，ElastAlert 提 供 几 个 便捷 选项 ， 把 Kibana 地 址 加 入 报警 : 


+ generate_kibana_link: 自动 生成 一 个 Kibana3 的 临时 仪表 盘 附 在 报警 内 容 上 。 
- use_kibana_dashboard: 采用 现成 的 Kibana3 仪 表盘 附 在 报警 内 容 上 。 


“use_kibana4_dashboard: 采用 现成 的 Kibana4 仪 表盘 附 在 报警 内 容 上 。 


15.3.3 扩展 


1.rule 


创建 一 个 自己 的 rule， 是 以 Python 模块 的 形式 存在 的 ， 所 以 首先 创建 目录 : 


# mkdir rule_modules 
# cd rule_modules 
# touch init__.py example_rule.py 


example_rule.py 的 内 容 如 下 : 


import dateutil.parser 
from elastalert.util import ts to dt 
from elastalert.ruletypes import RuleType 
class AwesomeNewRule (RuleType) : 
# 用 来 指定 本 rule 对 应 的 配置 文件 中 必要 的 参数 项 
required options = set(['time_start', 'time_end', 'usernames']) 
# 每 次 运行 获取 的 数据 以 时 间 排 序数 据 传递 给 add_data 函数 
def add_data(self, data): 
for document in data: 
+ 配置 文件 中 的 设置 可 以 通过 self.rule[] 获取 
if document['username'] in self.rule['usernames']: 
login time = document ['@timestamp'] .time () 
time_start = dateutil.parser.parse(self.rule['time_start']) .time() 
time end = dateutil.parser.parse (self.rule['time_end"']) .time() 
if login time > time_start and login time < time_end: 
+ 最 终 过 滤 结 果 ， 使 用 self.add match 添加 
self.add match (document) 
# alert text 中 使 用 的 文本 
def get_match_str(self, match): 


return "%s logged in between %s and %s" % (match['username'], 


self.rule['time start'], 
self.rule['time_end']) 
def garbage_collect (self, timestamp) : 
pass 


配置 中 ， 指 定 如 下 参数 即 可 使 


type: rule_modules.example_rule.AwesomeRule 
time_start: "20:00" T 
time end: "24:00" 
usernames: 
~ "admin" 
- "userXYZ" 
- "foobaz" 


2.alerter 


alerter 也 是 以 Python 模块 的 形式 存在 的 ， 所 以 还 是 要 创建 目录 (如 果 之 前 二 次 开发 rule 已 经 创建 过 可 以 跳 过) : 


# mkdir rule modules 
# cd rule modules 
# touch init__.py example _alert.py 


example_alert.py 的 内 容 如 下 : 


from elastalert.alerts import Alerter, basic_match_string 
class AwesomeNewAlerter (Alerter) : 
required options = set(['output_file path']) 
def alert (self, matches) : 
for match in matches: 


with open(self.rule['output_file path'], "a") as output file: 


# basic match string 函 至 用 来 转换 异常 数据 成 默认 格式 的 字符 串 


match_string = basic_match_string(self.rule, match) 


output _file.write (match string) 


# 报警 发 出 后 ，ElastAjert 会 调用 该 函数 的 结果 写 入 ES 索引 的 alert_info 字段 内 


def get_info(self): 
return {'type': 'Awesome Alerter', 
‘output_file': self.rule['output_file path 


"lh 


配置 中 ， 指 定 如 下 参数 即 可 使 


alert: "rule modules.example alert.AwesomeNewAlerter"™ 
output file path: "/tmp/alerts.log" 


3.enhancement 


enhancement 也 是 以 Python 模 块 的 形式 存在 的 ， 所 以 还 是 要 创建 


R (如 果 之 前 二 次 开发 rule 或 alert 已 经 创建 过 可 以 跳 过 ) : 


# mkdir rule modules 
# cd rule_modules 
# touch _ init__.py example_enhancement.py 


example enhancement.py 的 内 容 如 下 : 


from elastalert.enhancements import BaseEnhancement 
class MyEnhancement (BaseEnhancement) : 
def process (self, match): 
if 'domain' in match: 


url = "http://who.is/whois/%s" % (match['domain']) 


match['domain_whois link'] = url 


在 需要 的 rule 配 置 文件 中 添加 如 下 内 容 即 可 启 


match_enhancements: 


- "rule_modules.example_enhancement .MyEnhancement" 


15.4 ”时 序数 据 库 


之 前 已 经 介绍 过 ，Elasticsearch 默 认 存储 数据 时 ， 是 有 索引 数据 、_all 全 文 索 引 数 据 、_source JSON 字 符 串 三 份 的 。 其 中 ， 


因为 match_enhancements 是 个 数组 ， 也 就 是 说 ， 如 果 数 组 有 多 个 enhancement， 会 依次 执行 ， 完 全 完成 后 ， 才 传递 给 alert。 


求 下 ， 可 以 只 保留 索引 数据 ， 以 极 小 的 容量 代价 ， 换 取 Elasticsearch 灵 活 的 数据 结构 和 聚合 统计 功能 。 


在 监控 系统 中 ， 对 监控 项 和 监控 数据 的 设计 一 般 是 这 样 : 


- metric_path value timestamp (Graphite 设计 ) 


- { "host": "Host name 1", "key": "item_key", "value": "33", "clock": 1381482894 } (Zabbix 设计 ) 


这 些 设计 有 个 共同 点 ， 数 据 是 二 维 平面 的 。 以 最 简单 的 访问 请 求 状 


索引 数据 由 于 倒 排 索引 的 结构 ， 压 缩 比 非常 高 。 因 此 ， 在 某 些 特定 环境 和 需 


态 监控 为 例 ， 一 次 请 求 ， 可 能 转换 出 来 的 metric_path 或 者 说 key 就 有 : {city, isp, host, upstream}. 
{urlpathhttp://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/...}.{status, rt, ut, size，speed} 这 么 多 种 。 假 设 urlpath 有 1000 
个 ， 就 是 20000 个 组 合 。 意 味 着 需要 发 送 20000 条 数据 ， 做 20000 次 存储 。 


而 在 Elasticsearch 里 ， 这 就 是 实 实在 在 1000 条 日 志 。 而 且 在 多 条 


志 的 时 候 ， 


对 时 序数 据 ， 关 键 就 是 定义 缩减 数据 重复 。template 示 例如 下 : 


为 词 元 的 相对 固定 ， 压 缩 比 还 会 更 高 。 所 以 ， 使 


Elasticsearch 来 做 时 序 监 控 数据 的 存储 和 查询 ， 是 完全 可 行 的 办 法 。 


{ 
"order" : 2, 
"template" : "logstash-monit-*", 


"settings" : { 
tr 
"mappings" : { 
"default " : { 
"source" : { 
"enabled" : false 
hr 
Reales, 4 
"enabled" : false 


如 果 有 些 字段 ， 是 完全 不 用 Query， 只 参加 Aggregation 的 ， 还 可 以 设置 : 


"properties" : { 
"sid"; { 
"index" : "no", 
"doc values" : true, 
"type" : "string" 
} 
hy 


关于 Elasticsearch 用 作 rrd 用 途 ， 与 MongoDB 等 其 他 工具 的 性 能 测试 与 对 比 ， 可 以 阅读 腾讯 工程 师 写 的 系列 文章 : http://segmentfault.com/a/1190000002690600, 


15.5 ”Etsy 的 Kale 异 常 检测 


Kale 系 统 是 Etsy 公 司 开源 的 一 个 监控 分 析 系 统 。Kale 分 为 两 个 部 分 : skyline 和 oculus。skyline 负 责 对 时 序数 据 进行 概率 分 布 校 验 ， 对 校 验 失败 率 超过 阅 值 的 时 序数 据 发 报警 ，oculus 负 责 给 被 报警 的 时 
序 ， 找 出 趋势 相似 的 其 他 时 序 作为 关联 性 参考 。 官 方 博客 地 址 为 : http://codeascraft.com/2013/06/11/introducing-kale/。 


看 到 “相似 ”两 个 字 ， 你 一 定 想到 了 。 没 错 ，oculus 组 件 就 是 利用 了 Elasticsearch 的 相似 度 打分 。 


在 oculus 中 ， 为 Elasticsearch 的 org.elasticsearch.script.ExecutableScript 扩 展 了 DTW 和 Euclidian 两 种 NativeScript。 可 以 在 界面 上 选择 用 其 中 某 一 种 算法 来 做 相似 度 打 分 ， 如 


15-2 所 示 。 


[ 


ganglia.webs. un nll ii mum-apache_requests_per_second.sum 
score: 0.0 | Add Exclusion Filter | Add To Collection 


2013/06/11 08:45:15: Value:20.68 


08:45 08:50 08:55 09:00 09:05 09:10 09:15 09:20 09:25 09:30 09:35 09:40 09:45 09:50 
1 Hour 


ganglia.webs. mm mmi» mm apache_requests_per_second.sum 
score: 465.40076 | Add Exclusion Filter | Add To Collection 


22 


21 


20 


08:45 08:50 08:55 09:00 09:05 09:10 09:15 09:20 09:25 09:30 09:35 09:40 09:45 09:50 
1 Hour 


ganglia.webs. mmm m sms-PKts_out.sum 
score: 502.51923 | Add Exclusion Filter | Add To Collection 


08:45 08:50 08:55 09:00 09:05 09:10 09:15 09:20 09:25 09:30 09:35 09:40 09:45 09:50 
1 Hour 


图 15-2 ”oculus 效 果 
然后 相似 度 最 高 的 几 个 时 序 图 就 依次 排列 出 来 了 。 
Euclidian 即 欧 几 里 得 距离 ， 是 时 序 相似 度 计 算 里 最 基础 的 方式 。 


DTW 即 动态 时 间 规 整 (Dynamic Time Warping) ， 也 是 时 序 相似 度 计 算 的 常用 方式 ， 它 和 欧 几 里 得 距离 的 差别 在 于 ， 欧 几 里 得 距离 要 求 比 对 的 时 序数 据 是 一 一 对 应 的 ， 而 动态 时 间 规 整 计算 的 时 序数 
据 并 不 要 求 长 度 相等 。 在 运 维 监控 来 说， 也 就 是 延 后 一 定时 间 发 生 的 相近 趋势 也 可 以 以 很 高 的 打分 项 排名 靠 前 。 


不 过 ，oculus 插 件 仅 更 新 到 支持 Elasticsearch-0.90.3 版 本 为 止 。Etsy 性 能 优化 团队 在 OReilly 2015 大 会 上 透露 ， 他 们 内 部 已 经 根据 Kale 的 经 验 教训 ， 重 新 开发 了 Kale 2.0 版 。 预 计 会 在 2015 年 秋季 开 
源 。 大 家 一 起 期 待 吧 ! 


15.6 ”Grafana 可 视 化 


Grafana 是 一 个 开源 的 指标 量 监测 和 可 视 化 工具 。 常 用 于 展示 基础 设施 的 时 序数 据 和 应 用 程序 运行 分 析 。Grafana 的 dashboard 展 示 非 常 炫 酷 ， 绝 对 是 运 维 提升 逼 格 的 一 大 利器 。 


官方 在 线 的 demo 可 以 在 这 里 找到 : http://play.grafana.org/。 一 个 完整 的 全 屏 示例 如 图 15-3 所 示 。 


Grafana 的 套路 基本 上 跟 Kibana 差 不 多 ， 都 是 根据 查询 条 件 设置 聚合 规则 ， 在 合适 的 图 表 上 进行 展示 ， 多 个 图 表 共 同 组 建成 一 个 仪表 盘 ， 熟 悉 Kibana 的 用 户 应 该 可 以 非常 容易 上 手 。 另 外 Grafana 的 可 
视 化 功能 比 Kibana 强 得 多 ， 后 面 逐 步 会 介绍 到 ， 而 且 4 以 上 版 本 将 集成 报警 功能 。 


15.6.1 安装 


Grafana 的 安装 非常 简单 ， 官 方 就 有 软件 仓库 可 以 直接 使 用 ， 也 可 以 通过 Docker 镜 像 等 方式 直接 本 地 启动 。 参 考官 方 文档 的 安装 方法 ， 找 到 对 应 操作 系统 的 安装 方法 即 
可 : http://docs.grafana.org/。 


值得 一 提 的 是 ， 由 于 官方 仓库 托管 在 3 上， 国内 用 户 直接 访问 苦 不 堪 言 ， 万 幸 的 是 清华 大 学 tuna 镜 像 站 已 经 提供 了 Grafana 的 镜像 ， 只 需要 将 官方 文档 中 提 到 的 仓库 地 址 对 应 的 换 成 清华 大 学 的 镜像 站 
的 地 址 即 可 : https://mirrors.tuna.tsinghua.edu.cn/graf. 


ana/。 


安装 完毕 后 ， 使 用 service grafana-server start 就 可 以 启动 Grafana， 访 问 http://your-| 


st: 3000 就 可 以 看 到 登录 界面 了 。 默 认 的 用 户 名 和 密码 都 是 admin。 
默认 情况 下 ，Grafana 的 配置 存储 于 SQLite 3 中 ， 如 果 你 想 使 用 其 他 存储 后 端 ， 如 MySQL，Postgresql 等 ， 请 参考 官方 文档 配置 : 


http://docs.grafana.org/installation/config 


Grafana 的 几 个 基本 构成 和 基本 概念 参考 官方 文档 : 


fana.org/guides/basic concepts/ 


后 面 会 逐步 提 到 这 些 关键 词 。 


< zoomou > © Today so far Refresh every im r+} 


器 Detail-Server 88 New dashboard ”器 Postgesq!-Dashbord 88 Servers-Overview 1 器 周报 


nginx 流 量变 化 趋势 /总 流量 访问 压力 


nginx 状 态 码 统计 PVnpP 统 计 ( 已 排除 蜘蛛 ) 


nginx Mittit 
request_uri Count Average * 


sc12 co uibotphp7+) 


ov) 


Moziha/S.0 (compatible; M3121 
Mozilia’S.0 (Linux, Android 6.0.1 AppleWebKivS37.36 (KHTML, like Gecko) Cwomeis1 0 2272.96 Mobile SalarV537 36 (compatibie, Googiebou2 1; +http.Jiwww google convbot htm!) 
v5.0 (compatitvie; Yandext + orvbots) 
pieWebeuV53 patie; Googebou2 1. *http Mwww google combot himi) Satarv537 36 
(compatible; bngbow2 0: +hap orybmgbot htm) 
5.0 (compatible; Baiduspider/2 0. +MP /www bayqu corysearchyspiger NIT) 
一 sperman 


图 15-3 ”Grafana 全 屏 示 例 


先 要 明确 一 点 ，Grafana 只 是 一 个 仪表 盘 (4.0 版 本 开始 将 引入 报警 功能 ) ， 负 责 把 数据 库 中 的 数据 进行 可 视 化 展示 ， 本 身 并 不 存储 任何 数据 ， 另 外 某 些 查询 和 聚合 使 用 的 是 数据 库 本 身 提供 的 功能 ， 需 
要 对 应 的 数据 库 去 支持 。 因 此 不 代表 你 换 了 一 个 数据 库 后 端 就 一 定 能 展示 相同 的 图 形 。 


Grafana 目 前 支持 的 时 序数 据 库 有 : Graphite, Prometheus, Elasticsearch, InfluxDB, OpenTSDB, AWS Cloudwatch。 未 来 可 能 会 加 入 更 多 数据 库 的 支持 ， 请 关注 更 新 。 也 可 以 使 用 第 三 方 插件 
引入 支持 。 我 们 这 里 使 用 Elasticsearch 作 为 数据 库 的 来 源 。 


首先 进入 数据 源 的 设置 页 面 ， 点 击 左 上 角 的 Logo 图 标 呼出 左 侧 边 栏 ， 选 择 Data Sources， 然 后 点 击 Add data sources。 如 图 15-4 所 示 。 


Data So urces + Add data source 


图 15-4 添加 数据 源 操作 


进入 数据 源 的 设置 ， 例 如 我 们 要 从 logstash-YYYY.MM.DD 这 些 Index 中 读 取 数据 ， 就 像 Kibana 默 认 的 index 那 样 配置 即 可 。 如 图 15-5 所 示 。 


Edit data source 


Name logstash @ Default CA 


Type Elasticsearch X 数据 源 选 ElasticSearch 


Http settings 


Url http://localhost:9200 


Q 
对 外 暴露 ， 选 proxy， 上 


o 面 的 Url 选择 方向 代理 的 后 
端 。 否 则 选 direct，Url 填 
入 你 能 访问 到 的 ES 地 址 


Http Auth Basic Auth (x) With Credentials 


Elasticsearchde 


ndex name [logstash-]YYYY.MM.DD Pattern 


Time field name @timestamp 这 里 照 着 Kibana 的 配置 抄 就 可 以 了 
如 果 你 要 用 别 的 index， 这 里 就 照 


版 本 要 选 对 ，3.1.1 版 本 只 支持 到 2.x， 未 来 版 本 将 会 支持 5.0 


Default query settings 


Group by time interval 


图 15-5 ”编辑 EElasticsearch 数 据 源 


15.6.3 ”生成 第 一 个 图 表 


数据 源 配置 好 之 后 ， 就 可 以 开始 我 们 可 视 化 的 第 一 步 了 。 这 一 步 相对 较为 简单 ， 只 要 熟悉 ES 的 query-string-syntax (https://www.elastic.co/guide/en/elasticsearch/reference/5.0/query-dsl- 
query-string-query.html#query-string-syntax) 就 可 以 轻松 写 出 来 。 


想 创建 图 表 ， 首 先 得 有 Dashboard。 创 建 一 个 Dashboard 就 可 以 尽情 发 挥 了 。 如 图 15-6 所 示 。 


DevOps 


Dashboards Home 


Playlists 


Data Sources Snapshots 


i + New 


Plugins 


= Import 


Admin 


Pin 


图 15-6 创建 仪表 盘 操 作 入 口 
假 没 我 们 已 经 通过 collectd 收 集 好 了 CPU 占 用 比 的 数据 ， 希 望 给 制 成 CPU 曲 绪 ， 很 明显 我 们 需要 创建 一 个 折线 图 ， 那 么 在 Dashboard 上 新 建 一 个 折线 图 (在 Grafana 中 书 Graph) 的 Panel 妈 可。 添加 菜 
单 如 图 15-7 所 示 。 


YZ New dashboard - 


Collapse row 
Add Panel Dashboard list 


Set height Pie Chart 


Move 


Row editor Plugin list 


Delete row Singlestat 


Table 


Text 


图 15-7 添加 折线 图 的 菜单 


为 了 确定 数据 ， 我 么 可 以 先 在 Kibana 中 看 看 查询 结果 。Kibana 上 的 查询 结果 如 图 15-8 所 示 。 


grafana 使 用 的 和 kibana 相 同 的 语法 
logstash-* 4,309 hits 
Selected Fields November 27th 2016, 23:49:59.911 - November 28th 2016, 00:04:59.911 — by 30 seconds 


host 


50 < 
value 
type_instance og 
plugin 50 
collectd_type 
23:51:0 23:52:00 23:53:00 23:54:00 23:55:00 23:56:00 23:57:00 23:58:00 23:59:0% 2:00 00:¢ 


Available Fields 00:00:00 00:01:00 00:0 


3:00 00:04:00 00:05:00 


Dtimestamp per 30 seconds 


@timestamp 
a 


t @version 
Time ~ collectd_type type_instance 


November 28th 2016, 00:04:53. percent user 
November 28th 2016, 00:04:53. percent nice 
November 28th 2016, 00:04:53. percent system 
November 28th 2016, 00:04:53. percent steal 
November 28th 2016, 00:04:53. percent Ei idle 
November 28th 2016, 00:04:53. percent ‘a interrupt 


November 28th 2016, 00:04:53. percent wait 


15-8 在 Kibana 上 查询 collectd 的 数据 


很 明显 ，value 是 希望 绘制 到 曲线 上 的 点 ， 而 type_instance 应 该 作为 ES 聚合 的 bucket， 如 果 host 有 多 个 ， 那 么 host 也 应 作为 一 个 bucket， 我 们 先 不 管 这 个 host， 后 面 会 再 说 怎么 按照 host 分 图 
形 ，Grafana 有 更 巧妙 的 办 法 。 


bucket 的 作用 非常 类 似 于 SQL 中 的 GROUP BY， 于 是 新 建 Panel 的 查询 如 图 15-9 所 示 。 


Back to dashboard <€ ZoomOut > @Lastihour © 


current 
= idle 80 
= interrupt 


= nice 


= steal 


0 
1 
= SOftirq 0 
0 
2 


System 


Graph General Metrics Axes Legend Display Time range 


vA Query type:collectd AND plugin:cpu AND collectd_type:percent 


Metric @® Average value > Options 
Group by Terms type_instance > Bottom 10, Order by: Term value 


Then by Date Histogram @timestamp > Interval: 1m 


Panel data source logstash ~ + Add query 


简单 解释 一 下 这 些 配置 : 
“ query: % 就 是 Kibana 上 面 的 查询 条 件 ， 先 把 想 要 展示 的 数据 全 部 用 select 选 择 出 来 ， 然 后 进行 i ias 个 查询 起 个 别名 ， 可 用 于 图 例 说 明 
metric: 这 是 关键 的 指标 量 ， 指 到 底 展示 的 是 什么 东西 。 这 里 展示 的 是 GROUP BY 操作 之 后 对 value 求 平均 值 。 
: Group by: 对 应 Elasticsearch 的 bucket， 按 照 type_instance 分 桶 。 


整个 查询 下 来 大 致 相当 于 SQL 中 的 SELECTavg (value) WHERE query string ( ‘type: collectd AND plugin: cpu AND collectd_type: percent’ ) GROUP BY type instance GROUP BY 
Date_Histogram (@timestamp) 


如 果 只 关心 CPU 的 消耗 ， 不 关心 CPU 的 空闲 (idle) ， 希 望 仅仅 把 idle 曲 线 隐 藏 掉 ， 如 图 15-10 所 示 ， 在 Display 的 选项 卡 中 选择 隐藏 掉 idle 的 line 即 可 。 
Graph 图 表 能 配置 的 项 很 多 ， 包 括 图 例 的 颜色 、 位 置 、 显 示 的 值 ， 等 等 ， 甚 至 可 以 配置 数据 的 单位 ， 以 便于 更 优雅 地 展示 ， 这 里 就 不 一 一 列举 了 。 


把 希望 展示 的 图 表 一 个 个 加 进去 ， 最 终 如 图 15-11 这 样 完 整 的 pashboard 就 生成 了 。 


15.6.4 ”模板 功能 


模板 功能 实在 是 Grafana 的 一 大 亮点 ， 不 得 不 提 。 模 板 可 以 让 你 轻松 地 批量 生成 同一 类 型 的 查询 ， 而 不 用 一 个 个 添加 这 些 Panel， 是 生成 动态 可 视 化 图 表 的 杀 器 。 


CPU 变化 曲线 


current 
= idle 
= interrupt 
— nice 
— softirg 
— steal 


system 


Graph General Metrics Axes Legend Display Time range 

Draw Modes Mode Options Hover info Stacking & Null value 
Bars Fill Mode All series Stack 
Lines CA Line Width Sort order None Null value connected 


Points Staircase 


x alias or regex idle x Lines: false + 


Series specific overrides @ 


Add series specific option 


图 15-10 ”隐藏 idle 的 配置 项 


Load Average 


Memory ‘Swap Usage 


15-11 Dashboard Ff 


比如 现在 要 统计 各 个 网 卡 的 流量 ， 而 服务 器 可 能 包含 多 个 网 卡 ，lo、eth0、eth1， 等 等 ， 按 照 前 面 的 套路 ， 可 能 会 想到 将 网 卡 名 作为 bucket 进 行 GROUP BY 操作 。 思 路 没 错 ， 但 是 这 会 导致 所 有 网 卡 的 
流量 在 同一 个 图 表 显 示 ， 当 网 卡 多 的 时 候 非常 凌乱 。 再 比如 网 卡 之 间 可 能 流量 根本 不 对 等 ， 某 块 网 卡 的 流量 高 出 其 他 网 卡 好 几 个 数量 级 ， 这 将 导致 其 他 网 卡 的 流量 曲线 非常 接近 0， 以 至 于 几乎 看 不 清楚 流量 
变化 了 。 


因此 需要 将 不 同 的 网 卡 流量 放 在 不 同 的 Panel 分 别 展示 ， 但 是 不 同 服务 器 的 网 卡 数量 可 能 又 不 一 样 ， 因 此 查询 条 件 没 法 写成 一 个 固定 的 ， 需 要 动态 化 。 


还 是 先 让 我 们 从 Kibana 看 看 网 卡 流量 的 查询 。 如 图 15-12 所 示 : 


查询 条 件 为 type: collectd AND plugin: interface AND collectd_type: if_octets， 可 以 得 到 所 有 网 卡 每 一 时 刻 的 rx，tx 的 值 。 如 果 我 们 要 得 到 每 一 块 网 卡 的 流量 ， 很 明显 要 再 追加 一 个 动态 查询 条 件 
AND plugin_instance: $interface， 需 要 提前 对 plugin_instance 做 一 次 distinct， 拿 出 所 有 可 能 的 值 ， 再 拼接 到 这 个 动态 查询 上 。 这 个 就 是 grafana 模 板 的 基本 使 用 方式 。 


type:collectd AND plugin:interface AND collectd_type:if_octets Q ® 9 S 


logstash-* 1,610 hits 


Selected Fields November 28th 2016, 10:26:43.566 - November 28th 2016, 10:41:43.566 — by 30 seconds 


tx 


< 
40 
t plugin_instance 
Available Fields z Į | 
Popular 0 
10:27:00 10:2 10:00 3:00 10:34:00 37:00 


8:00 10:29:00 10:3 10:31:00 10:32:00 10:3 10:35:00 10:36:00 10: 10:38:00 10:39:00 10:40:00 10:41:00 
collectd_type @timestamp per 30 seconds 


host a 


plugin Time ~ plugin_instance ^ x » rx tx 
D @timestamp 
November :41. tung 3,079,992,509 3,174,417,132 


t @version 
November :41. lo 8,549,839,692, 706 8,549, 839,692, 706 
November 2:41:41. 12,610,485 ,608 , 306 13,595 ,827,871,528 


November 2:41:40. 266 , 465 , 604, 346 235 557,943,459 


November 2:41:40. 126,506,763 3,749,401 


November :41:40. 83,304,835,485 83,304,835,485 
November :41:39. 52,201,569,252 9,646,154,199 
November :41:39. 27,166,509 83,045,235 


November 7:41:39. 69,877,612,021 69,877,612,021 


图 15-12 ”网 卡 流量 搜索 


要 使 用 模板 ， 首 先 创建 动态 参数 的 查询 条 件 ， 在 顶部 点 击 设置 按钮 ， 进 入 Templating 设 置 。 如 图 15-13 所 示 。 


Templating Variables 


Variable 


Name interface 


Label 网 卡 名 


En 


Query Options 
Data source v Refresh On Dashboard Load 
Query {"find": "terms", "field": "plugin_instance","query": "plugin:interface"} Sik 


Regex i /[Alo]/ 


Selection Options 


Multi-value 
Include All option TA 


Custom all value 


Value groups/tags (Experimental feature) 


Enable 


图 15-13 ”模板 配置 页 


最 关键 的 地 方 在 Query 的 配置 ， 这 里 就 是 定义 怎么 获取 到 $interface 这 个 变量 的 所 有 可 选 值 ， 每 个 数据 库 的 语法 不 一 样 ， 比 如 Elasticsearch 的 Template 语 法 在 这 
f ‘data arch/#templating， 如 果 你 使 用 的 是 其 他 数据 源 ， 那 么 查询 对 应 数据 源 的 模板 语法 即 可 。 


: http://docs.grafana.org/d 


asources/e 


这 个 查询 就 相当 于 在 plugin : interface 这 个 查询 条 件 下 ， 对 plugin_instance 这 个 field 进 行 distinct 操 作 ， 结 果 再 使 用 /[^lo]/ 正 则 过 滤 ， 将 lo 这 个 结果 从 结果 集中 排除 掉 。 


结束 后 我 们 就 可 以 看 到 图 15-14 这 样 的 单 选 下 拉 框 。 


图 15-14 下拉 框 效果 


引入 了 $interface 这 个 变量 后 ， 我 们 就 可 以 改进 查询 条 件 了 ， 如 


图 


15-15 所 示 ， 查 询 语句 改 为 plugin: interface AND plugin_interface: $interface AND...: 
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vA Query plugin:interface AND@lugin_instance:$interface)AND collectd_type:if_octets AND host! Alias ”接受 速率 


Metric © Average x v Options 


Unit second 
egend& 
Group by Date Histogram @timestamp Interval: 1m 


Interval im 


图 15-15 4) 查询 条 件 


现在 这 个 图 形 就 会 跟着 上 面 网 卡 名 的 改变 而 改变 了 。 如 果 希 望 选择 All 的 时 候 ， 能 同时 展示 多 块 网 卡 ， 需 要 把 这 一 个 Panel 进 行 重复 就 可 以 了 ， 在 General 选 项 卡 启用 Repeat Panel| 为 interface。 配 置 界 
面 如 图 15-16。 我 们 甚至 可 以 在 title 文 字 里 也 引用 $interface 变 量 。 


当 网 卡 名 选择 All 的 时 候 ， 就 会 将 所 有 的 网 卡 流量 曲线 图 repeat 显 示 成 一 行 (row) 。 如 图 15-17 所 示 。 
同 理 ， 如 果 Templating 那 里 将 Multi-value 勾 选 上 ， 那 么 网 卡 名 这 里 就 可 以 勺 选 上 你 希望 展示 的 网 卡 名 ， 并 不 限于 单 选 。 
现在 再 回 到 一 开始 遗留 的 问题 : host 匹 配 的 问题 ， 利 用 模板 的 特性 就 可 以 非常 优雅 地 搞定 这 个 问题 。 


创建 一 个 host 的 模板 ， 如 图 15-18 所 示 。 
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图 15-16 repeat 操作 
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repeat 效 果 
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图 15-18 ”host 模板 配置 


这 样 前 面 所 有 的 查询 Query 再 追加 一 个 条 件 AND host: $host， 就 可 以 对 每 个 主机 生成 一 个 单独 的 Dashboard 界 面 了 ， 如 图 15-19 所 示 。 
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图 15-19 host repeat 仪 表盘 效果 


不 止 Panel 可 以 repeat， 连 Row 都 可 以 repeat。 只 需要 像 图 15-20 这 样 配 置 。 


2 器 Servers-Overview ~ t > ©Last5minutes Refresh 
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Twe ENZ: Shosi Y Show Title Repeat Row host 


915-20 row repeat 配 置 项 


对 行 repeat， 我 们 就 可 以 将 多 个 服务 器 的 主要 指标 放 在 一 个 Dashborad 中 了 。 如 图 15-21 所 示 。 


Grafana 的 玩法 还 有 很 多 ， 期 待 慢 慢 发 气 ， 更 多 详情 可 以 参考 官方 文档 。 


Grafana 提 供 了 一 些 在 线 资源 ， 可 以 帮助 使 用 者 更 方便 地 使 用 。 比 如 在 线 dashboard (| 
如 在 线 的 插件 仓库 (h 


js) 可 以 帮助 快速 生成 一 个 美观 的 dashboard， 不 用 自己 花心 思 去 布局 了 。 再 比 
ins) 可 以 帮助 连接 其 他 数据 源 ， 如 zabbix、Open-Falcon 等 ， 或 添加 其 他 展示 图 表 ， 如 人 饼 图 
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图 15-21 服务 器 repeat 仪 表盘 效果 


合理 利用 这 些 在 线 资 源 可 以 让 Grafana 更 加 完善 易 


- 第 16 章 ”Kibana 的 产品 对 比 
“第 17 章 Kibana5 

“ 第 18 章 ”Kibana 5 源码 解析 
: 第 19 章 ”Kibana 桂 件 开 发 示例 


Logstash 早 期 曾经 自 带 了 一 个 特别 简单 的 logstash-web 用 来 查看 Elasticsearch 中 的 数据 。 其 功能 太 过 简单 ， 于 是 Rashid Khan 用 PHP 写 了 一 个 更 好 用 的 Web， 取 名 叫 Kibana。 这 个 PHP 版 本 的 Kibana 发 布 时 间 是 
2011 年 12 月 11 日 。 


Kibana 迅 速 流行 起 来 ， 不 久 的 2012 年 8 月 19 日 ，Rashid Khan 用 Ruby 重 写 了 Kibana， 也 被 叫做 Kibana 2。 因 为 Logstash 也 是 用 Ruby 写 的 ， 这 样 Kibana 就 可 以 替代 原先 那个 简陋 的 logstash-web 页 面 了 。 


目前 我 们 看 到 的 Angularjs 版 本 Kibana 其 实 原名 叫 elasticsearch-dashboard， 但 跟 Kibana 2 作者 是 同一 个 人 ， 换 和 句 话说 ，Kibana 比 Logstash 还 早 就 进 了 Elasticsearch 名 下 。 这 个 项 目 改 名 Kibana 是 在 2014 年 2 月 ， 也 被 
叫做 Kibana 3。 全 新 的 设计 一 下 子 风靡 DevOps 界 。 随 后 其 他 社区 纷纷 借鉴 ，Graphite 目 前 最 流行 的 Grafana 界 面 就 是 由 此 而 来 ， 至 今 代 码 中 还 留存 有 十 余 处 kbn 字 样 。 


2014 年 4 月 ，Kibana 3 (K3) 停止 开发 ，Elasticsearch 公 司 集中 人 力 开 始 Kibana 4 (K4) 的 重 构 ， 在 2015 年 初 发 布 了 使 用 JRuby 做 后 端的 beta 版 后 ， 于 3 月 正式 推出 使 用 node.js 做 后 端的 正式 版 。 由 于 设计 思路 
上 的 差别 ， 一 些 区 3 适宜 的 场景 并 不 在 K4 考 虑 范围 内 ， 所 以 ， 至 今 K3 和 K4 并 存 使 用 。2016 年 10 月 ，Kibana 4 更 新 为 Kibana5 (K5) 。 其 主体 设计 思想 保持 了 一 致 。 本 书 以 Kibana 5 的 运用 、 解 析 和 二 次 开发 为 
主要 介绍 对 象 ， 只 会 稍微 介绍 一 下 Kibana 3 的 特别 之 处 。 


Kibana 4 正式 版 于 2015 年 初 发 布 ， 至 今 已 近 两 年 。Kibana 5 主要 在 交互 上 有 所 变化 ， 本 书 之 后 如 果 未 标明 版 本 号 的 情况 ， 均 默认 指 代 Kibana 5。 但 是 依然 推荐 大 家 同时 了 解 Kibana 3 和 Kibana 5 这 两 
套 系统 。 推 荐 大 家 同时 了 解 两 个 系统 。 因 为 二 者 分 别 基 于 不 同 接口 ， 不 同 目 的 ， 采 取 了 不 同 的 页 面 设 计 和 逻辑 ， 所 以 在 不 同 场景 下 各 有 优势 。 本 章 会 从 设计 原理 层面 稍 作 解 释 ， 免 受 凑 字 骗 钱 之 记 。 主 要 内 
容 包括 Kibana 3 的 设计 思路 和 功能 、Kibana 4 的 设计 思路 和 功能 、 与 Hadoop 体 系 的 区 别 、Ssplunk 场 景 参考 。 


本 书 一 开始 就 提 到 ，Kibana 3 在 设计 之 初 ， 有 另 一 个 名 字 ， 叫 elasticsearch dashboard。 事 实 上 ， 整 个 Kibana 3 就 是 一 个 围绕 着 dashboard 构 建 的 单 页 应 用 。 所 以 ， 在 页 面 逻 辑 上 ，Kibana 3 异常 简 
洁 。 大 量 的 代码 和 逻辑 ， 都 下 放 到 panel 层 次 上 。 每 个 panel 要 独立 完成 自己 的 可 视 化 设计 、 数 据 请 求 、 数 据 处 理 、 数 据 泻 染 。panel 和 panel 之 间 ， 则 几乎 毫 无 关联 。 简 单一 点 看 ， 整 个 页 面 就 像 是 一 堆 


iframe 一 样 。 


而 panel 的 设计 ， 则 是 以 使 用 者 角度 来 考虑 的 。Kibana 3 尽量 提供 能 让 运 维 人 员 一 步 到 位 的 使 用 策略 。 即 使 用 者 只 需要 了 解 panel 的 配置 页 面 能 填 什么 参数 ， 得 到 什么 可 视 化 结果 。 


最 明显 的 例子 就 是 trend panel, trend panel 背 后 其 实 是 针对 今天 和 了 昨天， 分 别 发 起 两 次 请 求 ， 然 后 再 拿 两 次 请 求 的 结果 ， 做 一 次 除法 ， 计 算 涨 跌幅 。 这 个 除法 计算 ， 是 在 浏览 器 端 完成 的 。 


类 似 在 浏览 器 端 完成 的 还 有 histogram panel 的 hits、second 等 的 计算 。 


此 外 ，Kibana 3 还 有 一 个 非常 有 用 的 功能 ，setting 中 的 index pattern， 是 可 以 输入 多 个 模式 ， 比 如 accesslog-[YYYY.MM.DD]，syslog-[YYYY.MM.DD]， 这 样 就 可 以 在 同一 个 面板 上 ， 看 到 来 自 不 同 
索引 的 数据 的 情况 。 


16.2 Kibana 5 的 设计 思路 和 功能 


从 新 特性 来 说 ，Kibana 5 全 面 支持 Aggregation 接 口 ， 还 有 更 多 的 可 视 化 选择 ， 可 以 任意 拖 动 自动 对 齐 的 挂件 框架 ， 保 存在 URL 可 以 跨 页 面 保持 的 检索 条 件 ， 以 及 对 页 面 请 求 的 内 部 排队 机 制 。 


从 页 面 设计 来 说 ，Kibana 5 参考 了 Splunk 的 产品 形态 ， 将 功能 拆 分 成 了 搜索 、 可 视 化 和 仪表 盘 三 个 标签 页 。 可 视 化 和 搜索 ， 是 一 一 绑 定 的 ， 无 法 跨 多 个 index pattern 做 搜索 ， 勿 论 可 视 化 了 。 而 且 可 
签 页 中 ， 用 d3jjs 实 现 的 可 视 化 构建 器 ， 与 请 求 Elasticsearch 数 据 的 聚合 选择 器 ， 又 是 各 自 独 立 的 插件 。 


也 就 是 说 ，Kibana 5 在 使 用 Aggregation 接 口 提供 更 复杂 功能 和 更 高 性 能 的 同时 ， 彻 底 改变 了 用 户 的 使 用 形式 。 
想 清楚 可 视 化 的 展现 形式 ， 充 分 理解 数据 字段 的 作用 。 然 后 才能 实现 想 要 的 结果 。 毫 无 疑问 ， 这 是 有 学 习 成 本 的 。 


户 必须 明确 了 解 Elasticsearch 各 个 aggs 接 口 的 意义 、 请 求 和 响应 体 的 数据 情况 ; 还 要 


至 于 像 Kibana 3 那 种 在 浏览 器 端 计算 的 功能 ，Kibana 5 中 则 完全 没有 。Elasticsearch 2.0 将 会 提供 一 种 pipeline aggregation 特 性 ， 目 前 猜测 或 许 Kibana 5 会 在 这 个 Elasticsearch 新 特性 的 基础 上 来 实 
现 类 似 功能 。 


在 界面 美观 方面 。Kibana 5 至 今 未 提供 类 似 Kibana 3 中 的 Query 设 置 功能 ， 包 括 Query 别 名 功能 都 没有 。 直 接 导 致 目前 Kibana 5 的 图 例 几乎 毫 无 作用 。 


在 filter 方 面 ，Kibana 5 用 filter agg 替 代 了 Kibana 3 使 用 的 facet filter。 页 面 表现 形式 上 ，Kibana 3 是 在 页 面 顶部 添加 Query 输 入 框 ， 全 局 生效 ; Kibana 5 是 在 Visualize 页 添加 aggs， 单 个 面板 生效 。 
依然 需要 多 查询 条 件 对 比 的 用 户 ， 需 要 一 个 个 面板 创建 ， 非 常 麻烦 。 


16.3 ”与 Hadoop 体 系 的 区 别 


Kibana 因 其 丰富 的 图 表 类 型 和 漂亮 的 前 端 界 面 ， 被 很 多 人 理解 成 一 个 统计 工具 。 而 我 个 人 认为 ，ELK 这 一 套 体系 ， 不 应 该 和 Hadoop 体 系 同 质 化 。 定 期 的 离线 报表 ， 不 是 Elasticsearch 专 长 所 在 (多 花 
费 分 词 、 打 分 这 些 步骤 在 高 负载 压力 环境 上 太 奢 侈 了 ) ， 也 不 应 该 由 Kibana 来 完成 (每 次 刷新 都 是 重新 计算 ) 。Kibana 的 使 用 场景 应 该 集中 在 两 方面 : 


“ 实时 监控 。 通 过 histogram 面 板 ， 配 合 不 同 条 件 的 多 个 queties 可 以 对 一 个 事件 走 很 多 个 维度 组 合 出 不 同 的 时 间 序 列 走势 。 时 间 序 列 数据 是 最 常见 的 监控 报警 了 。 


“ 问题 分 析 。 通 过 Kibana 的 交互 式 界 面 可 以 很 快 地 将 异常 时 间或 者 事件 范围 缩小 到 秒 级 别 或 者 个 位 数 。 期 望 一 个 完美 的 系统 可 以 给 你 自动 找到 问题 原因 并 且 解 决 是 不 现实 的 ， 能 够 让 你 三 两 下 就 从 TB 级 


的 数据 里 看 到 关键 数据 以 便 做 出 判断 就 很 棒 了 。 这 时 候 ， 一 些 非 histogram 的 其 他 面板 还 可 能 会 体现 出 你 意 想不到 的 价值 。 全 局 状态 下 看 似 很 普通 的 结果 ， 可 能 在 你 锁定 某 个 范围 的 时 候 发 生 剧烈 的 反方 向 的 
变化 ， 这 时 候 你 就 能 从 这 个 维度 去 重点 排查 。 而 表格 面板 则 最 直观 的 显示 出 你 最 关心 的 字段 ， 加 上 排序 等 功能 。 入 库 前 字段 切 分 好 ， 对 于 排 错 分 析 真 的 至 关 重 要 。 


164 ” Splunk 场景 参 


关于 ELK 的 用 途 ， 我 想 还 可 以 参照 其 对 应 的 商业 产品 Splunk 的 场景 ， 因 为 ELK stack 被 称 为 穷人 版 的 Splunk。 自 然 ， 我 们 可 以 从 splunk 的 场景 说 明 中 ， 学 习 到 如 何 更 好 地 使 用 ELK stack, 


使 用 Splunk 的 意义 在 于 使 信息 收集 和 处 理智 能 化 。 而 其 操作 智能 化 表现 在 [1]: 


1) 搜索 ， 通 过 下 钻 数 据 排查 问题 ， 通 过 分 析 根 本 原因 来 解决 问题 ; 
2) 实时 可 见 性 ， 可 以 将 对 系统 的 检测 和 警报 结合 在 一 起 ， 便 于 跟踪 SLA 和 性 能 问题 ; 


3) 历史 分 析 ， 可 以 从 中 找 出 趋势 和 历史 模式 ， 行 为 基线 和 阔 值 ， 生 成 一 致 性 报告 。 


可 以 看 出 ， 基 于 灵活 的 搜索 和 实时 可 视 化 这 两 项 能 力 ， 做 无 确定 因素 的 故障 和 性 能 问题 定位 ， 是 Splunk (及 ELK) 与 传统 大 数据 工具 在 用 法 上 最 大 的 区 别 。 而 场景 方面 ，Splunk 司 则 把 自己 的 产品 解决 
方案 划分 成 以 下 几 个 方面 : 


: 应 用 程序 管理 。 尤 其 是 在 “微服 务 ” 概 念 盛行 的 现在 ， 业 务 调 用 的 复杂 度 越 来 越 高 。 前 不 久 携程 网 发 生 的 那 起 故障 ， 业 务 恢复 耗费 数 小 时 ， 主 要 就 因为 要 逐一 确认 名 模块 本 身 的 状态 。 这 种 情况 下 ， 
不 同业 务 单 元 之 间 想 通过 统一 框架 埋 点 的 方式 来 实现 诊断 分 析 ， 难 度 实在 太 大 。 采 用 日 志 数 据 配合 APM 工 具 ， 将 会 逐渐 成 为 主流 。 


:IT 运 维 管理 。 记 录 系 统 和 程序 层面 的 变更 状态 ， 通 过 对 变更 的 时 间 轴 审核 验证 和 报表 ， 在 意外 故障 中 ， 快 递 定 位 变更 造成 的 影响 。 新 浪 网 故障 管理 组 的 数据 ，60% 以 上 的 故障 ， 是 因为 变更 引起 的 。 
快速 定位 具体 变更 ， 快 速 回 滚 ， 降 低 MTTR， 也 是 运 维 工作 的 重要 一 环 。 


“ 安全 审计 。 通 过 对 网 络 设备 ，HTTP 访 问 等 数据 的 模式 分 析 ， 发 现 和 过 滤 安 全 问题 。 这 部 分 也 是 目前 日 志 分 析 领域 最 有 “ 钱 ” 景 的 地 方 。 国 内 最 几 年 在 日 志方 面 的 创业 公司 ， 大 多 集中 在 安全 审计 方 


“ 业务 分 析 。 在 搜索 能 力 和 主动 监控 的 基础 上 ， 由 动态 的 可 视 化 提供 更 深刻 的 业务 洞察 分 析 (Insight) 。 在 Splunk 的 案例 中 ， 有 机 场 航班 、 人 口 统计 的 示例 。 在 Elasticsearch 的 案例 中 ， 有 美国 大 选 和 LBS 
的 示例 。 不 过 ， 目 前 来 说 ， 业 务 分 析 这 部 分 ， 只 占 Splunk 收 入 的 不 到 五 分 之 一 。 可 以 说 并 不 是 主要 场景 。 


可 以 看 出 来 ， 这 些 场景 同样 是 基于 搜索 和 可 视 化 衍生 得 出 的 。 


[由 参见 «Splunk 大 数据 分 析 》 (Peter Zadrozng 著 ) ， 机 械 工业 出 版 社 引进 出 版 。 


第 17 章 ”Kibana 5 


Kibana 5 是 Elastic.co 一 次 崭新 的 重 构 产品 。 在 操作 界面 上 ， 有 一 定 程度 的 对 Splunk 的 模仿 ， 跟 Kibana 3 相 比 则 是 颠覆 性 的 改变 。 原 有 Kibana 3 上 的 操作 经 验 ， 几 乎 无 法 自然 带 入 到 Kibana 5 中 ， 所 以 
本 章 会 从 以 下 几 方面 介绍 Kibana 5: 


' 安装 、 配 置 和 运行 。Kibana 5 不 再 是 纯 静 态 HTML 页 面 产 品 ， 所 以 本 节 先 介绍 Kibana 5 的 安装 部 署 方法 ， 然 后 演示 其 主要 页 面 的 效果 ， 给 读者 一 个 基本 印象 。 

“ 生产 环境 部 署 。 介 绍 Kibana 5 在 Nginx 代 理 和 Shield 权 限 控制 方面 的 配置 方法 。 

“discovet 功 能 。 介 绍 Kibana 5 上 Discover 标 签 页 的 使 用 。 

“ 各 visualize 功 能 。 介 绍 Kibana5 上 Visualize 标 签 页 的 使 用 ， 重 点 关注 各 种 可 选 可 视 化 图 表 的 配置 和 效果 。 

:dashboard 功 能 。 介 绍 Kibana5 上 Dashboard 标 签 页 的 使 用 。 

“ setting 功 能 。 介 绍 Kibana 5 上 Setting 标 签 页 的 使 用 。 

“ 设置 kibana 服 务 器 属性 。 在 服务 器 端 方面 ，Kibana 5 也 有 一 些 可 配置 项 ， 可 以 大 概 类 比 于 Kibana3 时 的 configjs， 本 节 对 此 稍 作 介绍 。 

“ 常用 sub agg 示 例 。 没 有 了 Kibana 3 固定 的 panel 效 果 ，Kibana 5 基于 Elasticsearch 的 sub agg 可 以 做 到 更 灵活 的 控制 ， 本 节 以 几 个 实际 的 日 志 场 景 ， 演 示 如 何 使 用 sub agg 构 造 Kibana 5 的 可 视 化 。 


+ Kibana 报 表 的 快速 实现 。 介 绍 一 种 通过 phantomjs 页 面 截屏 功能 ， 完 成 长 期 历史 报表 的 方案 。 


17.1 安装、 配置 和 运行 


Kibana 5 安装 方式 依然 简单 ， 几 分 钟 内 就 可 以 安装 好 Kibana 然 后 开始 探索 你 的 Elasticsearch 索 引 数 据 。 和 使 用 Kibana 3 时 类 似 ， 也 需要 预备 好 一 个 Elasticsearch 集 群 ， 不 过 ， 这 次 ， 需 要 确保 
Elasticsearch 全 集群 所 有 节点 (包括 client 节 点 ) 版 本 号 至 少 大 于 等 于 1.4.4 版 。 


如 果 你 的 Elasticsearch 是 被 Shield 保 护 着 的 ， 阅 读 下 一 节 “ 生 产 环境 部 署 ”学 习 额 外 的 安装 说 明 。 否 则 ， 普 通 情况 下 ， 按 照 下 面 说 明 足 以 完成 Kibana 5 的 初次 使 用 了 。 


安装 并 启动 Kibana 5 的 步骤 如 一 : 
1) 首先 从 http://www.elasticsearch.org/overview/kibana/installation/ 下 载 对 应 平台 的 Kibana 5 二 进 制 包 


2) 解压 .zip 或 tar.gz 压 缩 文件 


3) 在 安装 目录 里 运行 : bin/kibana (Linux/MacOSX) 或 bin\kibana.bat (Windows) 


完毕 ! Kibana 现 在 运行 在 你 本 机 5601 端 口 了 。 


1. 让 Kibana 连 接 到 Elasticsearch 


在 开始 用 Kibana 之 前 ， 你 需要 告诉 它 你 打算 探索 哪个 Elasticsearch 索 引 。 第 一 次 访问 Kibana 的 时 人 息 ， 你 会 被 要 求 定义 一 个 index pattern 用 来 匹配 一 个 或 者 多 个 索引 名 。 好 了 。 这 就 是 你 需要 做 的 全 部 
工作 。 以 后 你 还 可 以 随时 从 Settings 标 签 页 添加 更 多 的 index pattern, 


默认 情况 下 ，Kibana 会 连接 运行 在 localhost 的 Elasticsearch。 要 连接 其 他 Elasticsearch 实 例 ， 修 改 kibana.yml 里 的 Elasticsearch URL， 然 后 重启 Kibana。 


要 从 Kibana 访 问 的 Elasticsearch 索 引 的 配置 方法 : 


1) 从 浏览 器 访问 Kibana 界 面 。 也 就 是 说 访问 比如 localhost: 5601 或 者 http://YOURDOMAIN.com: 5601。 在 初次 使 用 时 ， 会 跳 转 到 如 图 17-1 所 示 的 页 面 。 


i 


2) 指定 一 个 可 以 匹配 一 个 或 者 多 个 Elasticsearch 索 引 的 index pattern。 默 认 情况 下 ，Kibana 认 为 你 要 访问 的 是 通过 Logstash 导 入 Elasticsearch 的 数据 。 这 时 候 你 可 以 用 默认 的 logstash-* 作 为 你 的 
index pattern。 通 配 符 (*) 匹配 索引 名 中 零 到 多 个 字符 。 如 果 你 的 Elasticsearch 索 引 有 其 他 命名 约定 ， 输 入 合适 的 pattern。pattern 也 开始 是 最 简单 的 单个 索引 的 名 字 。 


3) 选择 一 个 包含 了 时 间 戳 的 索引 字段 ， 可 以 用 来 做 基于 时 间 的 处 理 。Kibana 会 读 取 索 引 的 映射 ， 然 后 列 出 所 有 包含 了 时 间 戳 的 字段 ( 译 者 注 : 实际 是 字段 类 型 为 date 的 字段 ， 而 不 是 “看 起 来 像 时 间 
a" AYER) 。 如 果 你 的 索引 没有 基于 时 间 的 数据 ， 关 闭 Index contains time-based events 参 数 。 


4) 点 击 Create 添 加 index pattern。 第 一 个 被 添加 的 pattern 会 自动 被 设置 为 默认 值 。 如 果 你 有 多 个 index pattern 的 时 候 ， 你 可 以 在 Settings>lndices 里 设置 具体 哪个 是 默认 值 。 


Configure an index pattern 


In order to use Kibana you must configure at least one index pattern. Index patterns are used to identify the Elasticsearch index to run search and analytics against. They 
are also used to configure fields. 


Index contains time-based events 
Use event times to create index names [DEPRECATED] 
Index name or pattern 


Patterns allow you to define dynamic index names using * as a wildcard. Example: logstash-* 
logstash-* 


Do not expand index pattern when searching (Not recommended) 


By default, searches against any time-based index pattern that contains a wildcard will automatically be expanded to query only the indices that contain data within 
the currently selected time range. 


Searching against the index pattern /ogstash-* will actually query elasticsearch for the specific matching indices (e.g. /Jogstash-2015.12.21) that fall within the current 
time range. 


Time-field name @ refresh fields 


图 17-1 创建 索引 模式 


2. 探 索 数 据 


配置 索引 模式 后 ， 默 认 打 开 Kibana 5 会 出 现在 一 个 叫做 Discover 的 标签 页 ， 在 这 个 页 面 上 ， 我 们 可 以 提交 搜索 请 求 ， 过 滤 结 果 ， 然 后 检查 返回 的 文档 里 的 数据 ， 如 图 17-2 所 示 。 


默认 情况 下 ，Discover 页 会 显示 匹配 搜索 条 件 的 前 500 个 文档 ， 页 面 下 拉 到 底部 ， 会 自动 加 载 后 续 数据 。 你 可 以 修改 时 间 过 滤器 ， 拖 搜 直方 图 下 钻 数 据 ， 查 看 部 分 文档 的 细节 。Discover 页 上 如 何 探索 
数据 ， 详 细 说 明 见 稍 后 的 17.3 节 “Discover 功 能 。” 


3. 在 Visualize 页 转换 数据 成 图 表 


Visualization 标 签 页 用 来 为 你 的 搜索 结果 构造 可 视 化 。 每 个 可 视 化 都 是 跟 一 个 搜索 关联 着 的 。 比 如 ， 我 们 可 以 基于 前 面 那个 搜索 创建 一 个 展示 存款 余额 范围 的 饼 图 。 而 添加 一 个 子 聚合 ， 还 可 以 看 到 每 
个 范围 内 的 储户 年 龄 的 统计 结果 。 配 置 界 面 如 图 17-3 所 示 。 


4. 在 Dashboard 页 创建 定制 自己 的 仪表 盘 


还 可 以 保存 并 分 析 可 视 化 结果 ， 然 后 合并 到 Dashboard 标 签 页 上 以 便 对 比分 析 。 比 如 说 ， 我 们 可 以 像 图 17-4 中 展示 的 那样 创建 一 个 含有 多 个 可 视 化 数据 的 仪表 盘 : 


17.2 ”生产 环境 部 署 


Kibana 5 是 一 个 完整 的 Web 应 用 。 使 用 时 ， 你 需要 做 的 只 是 打开 浏览 器 ， 然 后 输入 你 运行 Kibana 的 机 器 地 址 然后 加 上 端口 号 ， 比 如 : http://localhost: 5601 或 者 http://YOURDOMAIN.com: 
5601, 
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17-4 ” Dashboard 示例 


但 是 当 你 准备 在 生产 环境 使 用 Kibana 的 时 候 ， 比 起 在 本 机 运行 ， 就 需要 多 考虑 一 些 问题 : 


- 在 哪 运行 Kibana。 


“ 是 否 需要 加 密 Kibana 出 入 的 流量 。 


“ 是 否 需要 控制 访问 数据 的 权限 。 


17.2.1 ”Nginx 代 理 配置 


了 。 


和 Kibana 3 相 比 ，Kibana 5 的 Nginx 代 理 配置 倒是 简单 许多 ， 因 


因为 Kibana 5 不 再 是 Kibana 3 那 种 纯 静态 文件 的 单 页 应 上 


， 所 以 其 服务 器 端 是 需要 消耗 计算 资源 的 。 因 此 ， 如 果 


户 较 多 ，Kibana 确 实 有 可 能 需要 进行 多 点 部 署 ， 这 时 候 ， 就 需要 用 Nginx 做 一 层 代理 


为 所 有 流量 都 是 统一 配置 的 。 下 面 是 一 段 包含 入 口 流量 加 密 、 简 单 权限 控制 的 Kibana 代 理 配 置 : 


upstream kibana4 { 


server 127.0.0.1:5601 fail _timeout=0; 


} 


server { 
listen *:80; 
server_name kibana_server; 
access_log /var/log/nginx/kibana.srv-log-dev.log; 
error_log /var/log/nginx/kibana.srv-log-dev.error.log; 
ssl on; 
ssl_certificate /etc/nginx/ssl/all.crt; 


ssl_certificate_key /etc/nginx/ssl/server.key; 


location / { 


root = /var/www/kibana; 
index index.html index.htm; 


f 

location ~ ^/kibana4/.* { 
proxy_pass 
rewrite 
proxy_set_header 
proxy_set_header 
auth_basic 


http: //kibana4; 
*/kibana4/(.*) 


/$1 break; 


X-Forwarded-For $proxy_add x forwarded for; 


Host 
"Restricted"; 


host; 


auth_basic_user_file /etc/nginx/conf.d/kibana.myhost.org.htpasswd; 


如 果 用 户 够 多 ， 当 然 你 可 以 单独 跑 一 个 Kibana 5 集群 ， 然 后 在 upstream 配 置 段 中 添加 多 个 代理 地 址 做 负载 均衡 。 


17.2.2 开启 SSL 


Kibana 同 时 支持 对 客户 端 请 求 以 及 Kibana 服 务 器 发 往 Elasticsearch 的 请 求 做 SSL 加 密 。 


要 加 密 浏 览 器 (或 者 在 Nginx 代 理 情况 下 ，Nginx 服 务 器 ) 到 Kibana 服 务 器 之 间 的 通信 ， 


配置 kibana 


.yml 里 的 ssl_key file 和 ss|l_cert file 参数: 


server.ssl.key: /path/to/your/server.key 
server.ssl.cert: /path/to/your/server.crt 


如 果 你 在 用 Shield 或 者 其 他 提供 HTTPS 的 代理 服务 器 保护 Elasticsearch， 你 可 以 配置 Kibana 通 过 HTTPSs 方 式 访问 Elasticsearch， 这 样 Kibana 服 务 器 和 Elasticsearch 之 间 的 通信 也 是 加 密 的 。 


要 做 到 这 点 ， 你 需要 在 kibana.yml 里 配置 Elasticsearch 的 URL 时 指明 是 HTTPS 协 议 : 


elasticsearch: "https://<your elasticsearch host>.com:9200" 


如 果 你 给 Elasticsearch 用 的 是 自己 签名 的 证 书 ， 请 在 kibana.yml 里 设 定 ca 参数 指明 PEM 文 件 位 置 ， 这 也 意味 着 开启 了 verify_ss| 参 数 : 


# If you need to provide a CA certificate for your Elasticsarech instance, put 


# the path of the pem file here. 
ca: /path/to/your/ca/cacert.pem 


17.3 ”Discover 功 能 


Discover 标 签 页 用 于 交互 式 探索 你 的 数据 。 你 可 以 访问 到 


匹配 得 上 你 选择 的 索引 模式 的 每 个 索引 的 每 条 记录 。 你 可 以 提交 搜索 请 求 ， 过 滤 搜索 结果 ， 然 后 查看 文档 数据 。 你 还 可 以 看 到 


文档 总 数 ， 获 取 字 段 值 的 统计 情况 。 如 果 索 引 模 式 配 置 了 时 间 字 段 ， 文 档 的 时 序 分 布 情况 会 在 页 面 顶部 以 柱状 图 的 形式 展示 出 来 。Discover 页 面 布局 如 图 17-5 所 示 。 
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17.3.1 ”设置 时 间 过 滤器 
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T 页 面 布局 


时 间 过 滤器 (Time Filter) 限制 搜索 结果 在 一 个 特定 的 时 间 周 期 内 。 如 果 你 的 索引 包含 的 是 时 序数 据 ， 而 且 你 为 所 选 的 索引 模式 配置 了 时 间 字 段 ， 那 么 就 可 以 设置 时 间 过 滤器 。 


默认 的 时 间 过 滤器 设置 为 最 近 15 分 钟 。 你 可 以 用 页 面 顶部 的 时 间 选 择 器 (Time Picker) 来 修改 时 间 过 滤器 ， 或 者 选择 一 个 特定 的 时 间 间 隔 ， 或 者 直方 图 的 时 间 范 围 。 


要 用 时 间 选 择 器 来 修改 时 间 过 滤器 : 
1) 点 击 菜单 栏 右上 角 显 示 的 Time Filter 打 开 时 间 选 择 器 。 


2) 快速 过 滤 ， 直 接 选 择 一 个 短 链接 即 可 。 


3) 要 指定 相对 时 间 过 滤 ， 点 击 Relative 然 后 输入 一 个 相对 的 开始 时 间 。 可 以 是 任意 数字 的 秒 、 分 、 小 时 、 天 、 月 甚至 年 之 前 。 


4) 要 指定 绝对 时 间 过 滤 ， 点 击 Absolute 然 后 在 From 框 内 输入 开始 


期 ，To 框 内 输入 结束 日 期 。 


匹配 搜索 请 求 的 


工具 栏 


文档 表格 


5) 点 击 时 间 选 择 器 底部 的 箭头 隐藏 选择 器 。 


从 直方 图 上 设置 时 间 过 滤器 ， 有 以 下 几 种 方式 : 


“ 想 要 放大 那个 时 间 间 隔 ， 点 击 对 应 的 柱 体 。 


: 单 击 并 拖 搜 一 个 时 间 区 域 。 注 意 需 要 等 到 光标 变 成 加 号 ， 才 意味 着 这 是 一 个 有 效 的 起 始点 。 


你 可 以 用 浏览 器 的 后 退 键 来 回 退 你 的 操作 。 


17.3.2 ”搜索 数据 


在 Discover 页 提交 一 个 搜索 ， 你 就 可 以 搜索 匹配 当前 索引 模式 的 索引 数据 了 。 你 可 以 直接 输入 简单 的 请 求 字符 号 
例 ， 参 见 之 前 Elasticsearch 章 节 。 


b 就 是 用 Lucene query syntax， 也 可 以 用 完整 的 基于 JSON 的 Query DSL。 具 体 示 


Tir 


当 你 提交 搜索 的 时 候 ， 直 方 图 ， 文 档 表格 ， 字 段 列 表 ， 都 会 自动 反映 成 搜索 的 结果 。hits (匹配 的 文档 ) 总 数 会 在 直方 图 的 右上 角 显 示 。 文 档 表格 显示 前 500 个 匹配 文档 。 默 认 的 ， 文 档 倒序 排列 ， 最 者 
的 文档 最 先 显示 。 你 可 以 通过 点 击 时 间 列 的 头 部 来 反 转 排序 。 事 实 上 ， 所 有 建 了 索引 的 字段 ， 都 可 以 用 来 排序 ， 稍 后 会 详细 说 明 。 


要 搜索 数据 ， 应 按 如 下 步骤 操作 : 


1) 在 搜索 框 内 输入 请 求 字符 串 : 


a) 简单 的 文本 搜索 ， 直 接 输 入 文本 字符 串 。 比 如 ， 如 果 你 在 搜索 网 站 服务 器 日 志 ， 你 可 以 输入 safari 来 搜索 各 字段 中 的 safari 单 词 。 


b) 要 搜索 特定 字段 中 的 值 ， 则 在 值 前 加 上 字段 名 。 比 如 ， 你 可 以 输入 status: 200 来 限制 搜索 结果 都 是 在 status 字 段 里 有 200 内 容 。 


c) 要 搜索 一 个 值 的 范围 ， 你 可 以 用 范围 查询 语法 ，[START_ VALUE TO END_VALUE]。 比 如 ， 要 查找 4xx 的 状态 码 ， 你 可 以 输入 status: [400 TO 499]。 


d) 要 指定 更 复杂 的 搜索 标准 ， 你 可 以 用 布尔 操作 符 AND，OR， 和 NOT。 比 如 ， 要 查找 4xx 的 状态 码 ， 还 是 php 或 html 结 尾 的 数据 ， 你 可 以 输入 status: [400 TO 499]AND (extension: php OR 
extension: html) 。 


2) 点 击 回 车 键 ， 或 者 点 击 Search 按 钮 提交 你 的 搜索 请 求 。 


1. 保 存 搜索 


你 可 以 在 Discover 页 加 载 已 保存 的 搜索 ， 也 可 以 用 作 visualizations 的 基础 。 保 存 一 个 搜索 ， 意 味 着 同时 保存 下 了 搜索 请 求 字符 串 和 当前 选择 的 索引 模式 。 


要 保存 当前 搜索 : 


1) 点 击 Discover 工 具 栏 的 Save Search 按 钮 。 


2) 输入 一 个 名 称 ， 点 击 Save。 


2. 加 载 一 个 已 存 搜索 


加 载 一 个 已 保存 的 搜索 ， 如 下 所 示 : 


1) 点 击 Discover 工 具 栏 的 Load Search 按 钮 。 


2) 选择 你 要 加 载 的 搜索 。 


如 果 已 保存 的 搜索 关联 到 跟 你 当前 选择 的 索引 模式 不 一 样 的 其 他 索引 上 ， 加 载 这 个 搜索 也 会 切换 当前 的 已 选 索引 模式 。 


3. 改 变 你 搜索 的 索引 


当 你 提交 一 个 搜索 请 求 ， 匹 配 当前 的 已 选 索引 模式 的 索引 都 会 被 搜索 。 当 前 模式 会 显示 在 搜索 栏 下 方 。 要 改变 搜索 的 索引 ， 需 要 选择 另外 的 模式 。 


要 选择 另外 的 索引 模式 : 


1) 点 击 Discover 工 具 栏 的 Settings 按 钮 。 


2) 从 索引 模式 列表 中 选取 你 打算 采用 的 模式 。 


关于 索引 模式 的 更 多 细节 ， 请 阅读 稍 后 17.6 节 “Setting 功 能”。 


4 .自动 刷新 页 


E 


亦 可 以 配置 一 个 刷新 闻 隔 来 自动 刷新 Discover 页 面 的 最 新 索引 数据 。 这 回 定期 重新 提交 一 次 搜索 请 求 。 设 置 刷 新 闻 隔 后 ， 会 显示 在 莱 单 栏 时 间 过 滤器 的 左边 。 


要 设置 刷新 闻 隔 ， 应 如 下 操作 : 


1) 点 击 菜单 栏 右上 角 的 Time Picker, 


2) 点 击 Auto-refresh 标 签 。 


3) 从 列表 中 选择 一 个 刷新 间隔 (如 图 17-6 所 示 ) 。 


New Save Load Share Refresh C Auto-refresh © Last 15 minutes 


Off 5 seconds 1 minute 1 hour 
10 seconds 5 minutes 2 hour 
30 seconds 15 minutes 12 hour 
45 seconds 30 minutes 1 day 


图 17-6 设置 自动 版 刷新 页 面 


开启 自动 刷新 后 ，Kibana 的 顶部 栏 会 出 现 一 个 暂停 按钮 和 自动 刷新 的 间隔 : 工 国 DO。 点 击 Pause 按 钮 可 以 暂停 自动 刷新 。 


173.3 ” 按 字段 过 滤 


你 可 以 过 滤 搜 索 结 果 ， 只 显示 在 某 字段 中 包含 了 特定 值 的 文档 。 也 可 以 创建 反 向 过 滤器 ， 排 除 掉包 含 特定 字段 值 的 文档 。 


你 可 以 从 字段 列表 或 者 文档 表格 里 添加 过 滤器 。 当 你 添加 好 一 个 过 滤器 后 ， 它 会 显示 在 搜索 请 求 下 方 的 过 滤 栏 里 。 从 过 滤 栏 里 你 可 以 编辑 或 者 关闭 一 个 过 滤器 ， 转 换 过 滤器 (从 正 向 改 成 反 向 ， 反 之 亦 
然 ) ， 切 换 过 滤器 开关 ， 或 者 完全 移 除 掉 它 。 


要 从 字段 列表 添加 过 滤器 ， 应 如 下 操作 : 


= 


点 击 你 想 要 过 滤 的 字段 名 。 会 显示 这 个 字段 的 前 5 名 数据 。 每 个 数据 的 右 人 出， 有 两 个 小 按钮 : 一 个 用 来 添加 常规 ( 正 向 ) 过 滤器 ， 一 个 用 来 添加 反 向 过 滤器 。 


2) 要 添加 正 向 过 滤器 ， 点 击 Positive Filter 按 钮 ， 这 会 过 滤 掉 在 本 字段 不 包含 这 个 数据 的 文档 。 
3) 要 添加 反 向 过 滤器 ， 点 击 Negative Filter 按 钮 ， 这 会 过 滤 掉 在 本 字段 包含 这 个 数据 的 文档 。 


要 从 文档 表格 添加 过 滤器 ， 应 如 下 操作 : 


1) 点 击 表格 第 一 列 (通常 都 是 时 间 ) 文档 内 容 左 侧 的 Expand 按 钮 展开 文档 表格 中 的 文档 。 每 个 字段 名 的 右 人 出 ， 有 两 个 小 按钮 : 一 个 用 来 添加 常规 ( 正 向 ) 过 滤器 ， 一 个 用 来 添加 反 向 过 滤器 。 


2) 要 添加 正 向 过 滤器 ， 点 击 Positive Filter 按 钮 ， 这 会 过 滤 掉 在 本 字段 不 包含 这 个 数据 的 文档 。 
3) 要 添加 反 向 过 滤器 ， 点 击 Negative Filter 按 钮 ， 这 会 过 滤 掉 在 本 字段 包含 这 个 数据 的 文档 。 


173.4 ”过 滤器 的 协同 工作 方式 


在 Kibana 的 任意 页 面 创建 过 滤器 后 ， 就 会 在 搜索 输入 框 的 下 方 出 现 一 个 绿色 椭圆 形 的 过 滤 条件 。 


鼠标 移动 到 过 滤 条 件 上 ， 会 显示 几 个 图 标 ， 如 图 17-7 所 示 。 


2009 4hits New Save Open Share © May 18th 2015, 23:48:13.984 to May 19th 2015, 06:32:26.616 


: 加 


图 17-7 “过滤 条 件 


图 过 滤器 开关 。 点 击 这 个 图 标 ， 可 以 在 不 移 除 过 滤器 的 情况 下 关闭 过 滤 条 件 。 再 次 点 击 则 重新 打开 。 被 禁用 的 过 滤器 是 条 纹 状 的 灰色 ， 要 求 包含 (相当 于 Kibana 3 里 的 must) 的 过 滤 条 件 显示 为 绿 
色 ， 要 求 排除 (相当 于 Kibana 3 里 的 mustNot) 的 过 滤 条 件 显示 为 红色 。 


国 过 滤器 图 钉 。 点 击 这 个 图 标 可 “ 钉 住 ” 过 滤器 。 被 钉 住 的 过 滤器 ， 可 以 横贯 Kibana 各 个 标签 生效 。 比 如 在 Visualize 标 签 页 钉 住 一 个 过 滤器 ， 然 后 切换 到 Discover 或 者 Dashboard 标 签 页 过 滤器 依 
然 还 在 。 注 意 ， 如 果 你 钉 住 了 过 滤器 ， 然 后 发 现 检索 结果 为 空 ， 注 意 查看 当前 标签 页 的 索引 模式 是 不 是 跟 过 滤器 匹配 。 


图 过 滤器 反 转 。 点 击 这 个 图 标 可 “ 反 转 ”过 滤器 。 默 认 情况 下 ， 过 滤器 都 是 包含 型 ， 显 示 为 绿色 ， 只 有 匹配 过 滤 条 件 的 结果 才 会 显示 。 反 转 成 排除 型 过 滤器 后 ， 显 示 的 是 不 匹配 过 滤器 的 检索 项 ， 显 示 
ALLE. 


回 移 除 过 滤器 。 点 击 这 个 图 标 将 删除 过 滤器 。 


图 自 定义 过 滤器 。 点 击 这 个 图 标 会 打开 一 个 文本 编辑 框 。 编 辑 框 内 可 以 修改 JSON 形 式 的 过 滤器 内 容 ， 并 起 一 个 alias 别 名 。 如 图 17-8 所 示 。 


Nt 


Filter Alias (optional) 
1~ 
2+ "query": { 
3+ "match": { 
4 “machine.os": { 
5 "query": "osx", 
6 "type": “phrase” 
7 } 
8 } 
9 } 
10 } 


178 自 定义 过 滤器 界面 


在 这 里 的 JSJON 中 可 以 灵活 应 用 bool query 组 合 各 种 should、must、must_not 条 件 。 一 个 用 should 表 达 的 OR 关 系 过 滤 如 下 : 


"geoip.country name.keyword": "Canada" 


"term": { 
"geoip.country_name.keyword": "China" 


想 要 对 当前 页 所 有 过 滤器 统一 执行 上 面 的 某 个 操作 ， 点 击 Global Filter Actions 按 钮 ， 然 后 再 执行 操作 即 可 。 


17.3.5 “查看 文档 数据 


当 你 提交 一 个 搜索 请 求 ， 最 近 的 500 个 搜索 结果 会 显示 在 文档 表格 里 。 你 可 以 在 Advanced Settings 里 通过 discover: sampleSize 属 性 配置 表格 里 具体 的 文档 数量 。 默 认 情况 下 ， 表 格 会 显示 当前 选择 的 
索引 模式 中 定义 的 时 间 字 段 内 容 (转换 成 本 地 时 区 ) 以 及 _source 文 档 。 你 可 以 从 字段 列表 添加 字段 到 文档 表格 。 还 可 以 用 表格 里 包含 的 任意 已 建 索引 的 字段 来 排序 列 出 的 文档 。 


要 查看 一 个 文档 的 字段 数据 ， 点 击 表格 第 一 列 (通常 都 是 时 间 ) 文档 内 容 左 侧 的 Expand 按 钮 中。Kibana 从 Elasticsearch 读 取 数 据 然后 在 表格 中 显示 文档 字段 。 如 图 17-9 所 示 。 这 个 表格 每 行 是 一 个 字 
段 的 名 字 、 过 滤器 按钮 和 字段 的 值 。 


Time ~ _source 


v October 21st 2016, 16:36:00.038 


response: HO] @message: 120.252.217.241 - - [2016-10-21123:3 
6:00.038Z] “GET /uploads/robert-curbeam. jpg HTTP/1.1" OM) 2658 


"={""""Mozilla/S.0 (X11; Linux 1686) ApplewebKit/534.24 (KHTML, 1 
ike Gecko) Chrome/11.0.696.50 Safari/534.24" index: logstash-0 


@timestamp: October 21st 2016, 16:36:00.038 ip: 120.252.217.2 


Link to /logstash-0/apache/AVfjdviPSupDDAGQNWBZ 


Table JSON 


t @message Q Q MD * 120.252.217.241 - - [2016-10-21T23:36:00.038Z) 
"GET /uploads/robert-curbeam. jpg HTTP/1.1" 40 
@ 2658 "-" “Mozilla/5.0 (x11; Linux 1686) Appl 
ewebKkit/534.24 (KHTML, like Gecko) Chrome/11.0 
.696.50 Safari/534.24" 


Q QM * success, info 


图 17-9 展开 的 日 志 表格 
查看 文档 的 方式 如 下 : 
要 查看 原始 JSON 文 档 (格式 美化 过 的 ) ， 点 击 JSON 标 签 。 


“ 要 在 单独 的 页 面 上 查看 文档 内 容 ， 点 击 链接 。 你 可 以 添加 书签 或 者 分 享 这 个 链接 ， 以 直接 访问 这 条 特定 文档 。 


Ba Lea WF, A Æ Collapsede sal, 
- 点 击 四 Toggle 按 钮 ， 则 可 以 查看 文档 中 某 字段 的 一 列 。 


1. 文 档 列表 排序 


你 可 以 用 任意 已 建 索引 的 字段 排序 文档 表格 中 的 数据 。 如 果 当 前 索引 模式 配置 了 时 间 字 段 ， 默 认 会 使 用 该 字段 倒序 排列 文档 。 


要 改变 排序 方式 ， 点 击 想 要 用 来 排序 的 字段 名 。 能 用 来 排序 的 字段 在 字段 名 右 侧 都 有 一 个 排序 按钮 。 再 次 点 击 字段 名 ， 就 会 反 向 排序 。 


2 .给 文档 表格 添加 字段 列 


默认 情况 下 ， 文 档 表格 会 显示 当前 选择 的 索引 模式 中 定义 的 时 间 字 段 内 容 (转换 成 本 地 时 区 ) 以 及 _source 文 档 。 你 可 以 从 字段 列表 添加 字段 到 文档 表格 。 
要 添加 字段 列 到 文档 表格 ， 应 如 下 操作 : 


1) 移动 鼠标 到 字段 列表 的 字段 上 ， 点 击 add 按 钮 四。 


2) 重复 操作 直到 你 添加 完 所 有 你 想 移 除 的 字段 。 


添加 的 字段 会 替换 掉 文档 表格 里 的 source 列 ， 同 时 还 会 显示 在 字段 列表 项 部 的 Selected Fields 区 域 里 。 


要 重 排 表格 中 的 字段 列 ， 移 动 鼠 标 到 你 要 移动 的 列 顶 部 ， 点 击 移动 按钮 ， 如 图 17-10 所 示 。 


Time geo.src geo.dest ^ X «> response 


~ October 21st 2016, 16:36:00.038 VN Se) 404 


图 17-10 ”移动 表格 字段 的 方法 
3. 从 文档 表格 删除 字段 列 
要 从 文档 表格 删除 字段 列 ， 应 如 下 操作 : 


1) 移动 鼠标 到 字段 列表 的 Selected Fields 区 域 里 想 要 移 除 的 字段 上 ， 然 后 点 击 它 的 remove 按 钮 3。 


2) 重复 操作 直到 你 移 除 完 所 有 想 移 除 的 字段 。 


4. 查 看 字段 数据 统计 


从 字段 列表 中 ， 你 可 以 看 到 文档 表格 里 有 多 少数 据 包含 了 这 个 字段 ， 排 名 前 5 的 值 是 什么 ， 以 及 包含 各 个 值 的 文档 的 占 比 ， 如 图 17-11 所 示 。 


t extension 


Quick Count (93 /93 records } 


QQ 


aa 


QQ 


QQ 


QQ 


17.4 各 种 可 视 化 功能 


Visualize 标 签 页 用 来 设计 可 视 化 。 你 可 以 保存 可 视 化 结果 供 以 后 再 用 ， 或 者 加 载 合并 到 仪表 盘 里 。 可 视 化 功能 可 以 基于 以 下 几 种 数据 源 类 型 : 
“ 新 的 交互 式 搜索 。 

“ 已 保存 的 搜索 。 

“ 已 保存 的 可 视 化 。 


可 视 化 是 基于 Elasticsearch 1.0 引 入 的 聚合 (aggregation) 特性 。 


创建 可 视 化 可 开始 于 New Visualization 向 导 ， 点 击 页 面 左上 角 的 Visualize 标 签 。 如 果 你 已 经 在 创建 一 个 可 视 化 了 ， 你 可 以 在 搜索 栏 的 右 侧 工具 栏 里 点 击 New Visualization 按 钮 由， 向 导 会 引导 你 继续 
以 下 几 步 进行 创建 : 


1) 在 New Visualization 向 导 起 始 页 选择 可 视 化 类 型 ， 或 加 载 一 个 之 前 保存 的 可 视 化 。 
已 存 可 视 化 选择 器 包括 一 个 文本 框 用 来 过 滤 可 视 化 名 称 ， 以 及 一 个 指向 “对 和 象 编辑 器 ” (Object Editor) 的 链接 ， 可 以 通过 Settings 一 Edit Saved Objects 来 管理 已 存 的 可 视 化 。 


如 果 你 的 新 可 视 化 是 一 个 Markdown 挂 件 ， 选 择 这 个 类 型 会 带 你 到 一 个 文本 内 容 框 ， 你 可 以 在 框 内 输入 打算 显示 在 挂件 里 的 文本 。 其 他 的 可 视 化 类 型 ， 选 择 后 都 会 转 到 数据 源 选 择 。 下 一 节 开 始 ， 会 详 
细 介 绍 各 种 可 视 化 类 型 的 操作 。 


2) 选择 数据 源 。 你 可 以 选择 新 建 或 者 读 取 一 个 已 保存 的 搜索 ， 作 为 可 视 化 的 数据 源 。 搜 索 是 和 一 个 或 者 一 系列 索引 相关 联 的 。 如 果 你 选择 了 在 一 个 配置 了 多 个 索引 的 系统 上 开始 你 的 新 搜索 ， 从 可 视 化 
编辑 器 的 下 拉 菜 单 里 选择 一 个 索引 模式 。 


当 你 从 一 个 已 保存 的 搜索 开始 创建 并 保存 好 了 可 视 化 ， 这 个 搜索 就 绑 定 在 这 个 可 视 化 上 。 如 果 你 修改 了 搜索 ， 对 应 的 可 视 化 也 会 自动 更 新 。 


3) 操作 可 视 化 编辑 器 


可 视 化 编辑 器 用 来 配置 、 编 辑 可 视 化 ， 如 图 17-12 所 示 ， 有 下 面 几 个 主要 元 素 : 工具 栏 、 聚 合 构建 器 、 预 览 画布 。 下 面 分 别 介绍 。 


New Save Load Share Refresh 
A kibana 
Discover 
Visualize Data Options 
Dashboard 
Timelion 
Management 
Dev Tools Rosa 


| Terms 


Field 
| geo.src 


Order By 
| metric: Count s 
Order Size 
| Descending $ 10 
Custom Label 
Country of Origin 
Select buckets type 


CN IN US ID PK BR NG BD RU JP 
@ Collapse Split Bars Country of Origin 


图 17-12 可视化 编辑 器 布局 
1. 工 具 栏 (Toolbar) 


工具 栏 上 有 一 个 用 户 交互 式 数据 搜索 的 搜索 框 ， 用 来 保存 和 加 载 可 视 化 。 因 为 可 视 化 是 基于 保存 好 的 搜索 ， 搜 索 栏 会 变 成 灰色 。 要 编辑 搜索 ， 双 击 搜索 框 ， 用 编辑 后 的 版 本 替换 已 保存 搜索 。 


搜索 框 右 侧 的 工具 栏 有 一 系列 按钮 ， 用 于 创建 新 可 视 化 ， 保 存 当 前 可 视 化 ， 加 载 一 个 已 有 有 可视化， 分享 或 内 嵌 可 视 化 ， 刷 新 当前 可 视 化 的 数据 。 
2. 聚 合 构建 器 (Aggregation Builder) 


用 页 面 左 侧 的 聚合 构建 器 配置 你 的 可 视 化 要 用 的 metric 和 bucket 聚 合 。 桶 (Buckets) 的 效果 类 似 于 SQL GROUP BY 语句 。 想 更 详细 地 了 解 聚合 ， 请 阅读 Elasticsearch aggregations reference, 


在 柱状 图 或 者 折线 医 


可 视 化 里 ， 


metrics 做 Y 轴 ， 然 后 buckets 做 X 轴 ， 条 带 颜 色 ， 以 及 行 / 列 的 区 分 。 在 饼 图 里 ，metrics 


来 做 分 片 的 大 小 ，buckets 做 分 片 的 数量 。 


为 你 的 可 视 化 Y 轴 选 一 个 metric 聚 合 ， 包 括 count、average、sum、min、max、cardinality (unique count) 。 为 你 的 可 视 化 X 轴 、 条 带 颜 色 、 行 / 列 的 区 分 选 一 个 bucket 聚 合 ， 


histogram、range、terms、filters 和 significant terms, 


你 可 以 设置 buckets 执 行 的 顺序 。 在 Elasticsearch 里 ， 第 一 个 聚合 决定 了 后 续 聚合 的 数据 集 。 下 面 的 例子 演示 一 个 网 页 访问 量 前 五 名 的 文件 后 级 名 统计 的 时 间 柱 状 图 。 


要 看 所 有 相同 后 缀 名 的 ， 设 置 顺序 如 下 : 


1) Color: 后 缀 名 的 Terms 聚 合 。 


2) X-Axis: @timestamp 的 时 间 柱 状 图 。 


Elasticsearch 收 集 记 录 ， 算 出 前 5 名 后 缀 名 ， 然 后 为 每 个 后 缀 名 创建 一 个 时 间 柱 状 图 。 


要 看 每 个 小 时 的 前 5 名 后 级 名 情况 ， 设 置 顺序 如 下 : 


1) X-Axis: @timestamp 的 时 间 柱 状 


2) Color: 后 缀 名 的 Terms 聚 合 。 


这 次 ，Elasticsearch 会 从 所 有 记录 里 创建 一 个 时 间 村 
记 住 ， 每 个 后 续 的 桶 ， 都 是 从 前 一 个 的 桶 里 分 割 数据 。 
要 在 “预览 画布 


3. 预 览 画布 (Preview Canvas) 


HRE 


图 (1 小 时 间隔 ) 。 


(preview canvas) 上 泻 染 可 视 化 ， 点 击 聚合 构建 器 底部 的 Apply 按 钮 。 


， 然 后 在 每 个 桶 内 ， 分 组 (本 例 中 就 是 一 个 小 时 的 间隔 ) 计算 出 前 5 名 的 后 缀 名 。 


预览 canvas 上 显示 你 定义 在 聚合 构建 器 里 的 可 视 化 的 预览 效果 。 要 刷新 可 视 化 预览 ， 点 击 工具 栏 里 的 Refresh 按 钮 加 。 


下 面 几 个 小 节 就 分 别 介绍 各 种 可 视 化 的 功能 。 


17.4.1 


area 


这 种 图 的 Y 轴 是 “数值 ”维度 。 


你 可 


者 分 割 的 


Average 


Sum 


Min 


Max 


Unique Count 


Percentile 


Percentile Rank 


aK EX buckets, 


该 图 


该 维度 有 很 多 聚合 可 上 


， 参 见 表 17-1。 


表 17-1 area 


Y 轴 的 聚合 


说 有明 


常见 的 有 date 


count 聚合 接口 文档 见 http://www.elastic.co/guide/en/elasticsearch/reference/current//search-aggregations- 
metrics-valuecount-aggregation.html。 返 回 选 中 索引 模式 中 元 素 的 原始 计数 
avg 聚合 接口 文档 见 http:/Avww.elastic.co/guide/en/elasticsearch/reference/current//search-aggregations- 
metrics-avg-aggregation.html。 返 回 一 个 数值 字段 平均 值 ， 从 下 拉 菜 单 选择 一 个 字段 


sum 聚合 接口 文档 见 http://www.elastic.co/guide/en/elasticsearch/reference/current//search-aggregations- 


metrics-sum-aggregation.html, i [El 


个 数值 字段 的 总 和 ， 从 下 拉 菜 单 选择 一 个 字段 


min 聚合 接口 文档 见 http:/Avww.elastic.co/guide/en/elasticsearch/reference/current//search-aggregations- 
metrics-min-aggregation.html。 返 回 一 个 数值 字段 的 最 小 值 ， 从 下 拉 沫 单 选 择 一 个 字段 

max 聚合 接口 文档 见 http://www.elastic.co/guide/en/elasticsearch/reference/current//search-aggregations- 
metrics-max-aggregation.html。 返 回 一 个 数值 字段 的 最 大 值 ， 从 下 拉 菜 单 选择 一 个 字段 

cardinality 聚合 接口 文档 见 http://www.elastic.co/guide/en/elasticsearch/reference/current//search- 
aggregations-metrics-cardinality-aggregation.html。 返 回 一 个 字段 的 去 重 数据 值 ， 从 下 拉 菜 单 选 


择 一 个 字段 


percentile 聚合 接口 文档 见 http://www.elastic.co/guide/en/elasticsearch/reference/current//search- 


aggregations-metrics-percentile-aggregation.html。 


返回 一 个 数值 字段 中 值 的 百分比 分 布 。 从 下 


拉 菜 单 选择 一 个 字段 ， 然 后 在 Percentiles 框 内 指定 范围 。 点 击 X 移 除 一 个 百分比 框 ， 点 击 
+Add 添加 一 个 百分比 框 


percentile ranks 聚合 接口 文档 见 http://www.elastic.co/guide/en/elasticsearch/reference/current// 


search-aggregations-metrics-percentile-rank-aggregation.html。 返 回 一 个 数值 字段 中 你 指定 值 的 
百 分 位 排名 。 从 下 拉 菜 单 选 择 一 个 字段 ， 然 后 在 Values 框 内 指定 一 到 多 个 百 分 位 排名 值 。 点 
击 X 移 除 一 个 百分比 框 ， 点 击 +Add 添加 一 个 数值 框 


以 点 击 +Add Aggregation 按 钮 添加 一 个 聚合 。buckets 聚 合 指明 从 你 的 数据 集中 将 要 检索 什么 信息 。 


图 形 的 X 轴 是 buckets 维 度 。 你 可 以 为 X 轴 定义 buckets， 同 样 还 可 以 为 


形 的 X 轴 支持 很 多 聚合 ， 如 表 17-2 所 示 。 点 击 每 个 聚合 的 链接 查看 该 聚合 的 Elasticsearch 官 方 文档 。 


图 


片上 的 分 片区 域 , 或 


表 17-2 ”area 图 X 轴 的 聚合 


聚合 名 称 说 AR 
date_histogram 聚合 接口 文档 见 http:/Avww.elastic.co/guide/en/elasticsearch/reference/current// 
Date Histogram search-aggregations-bucket-datehistogram-aggregation.html。 基 于 数值 字段 创建 ， 由 时 间 组 织 
起 来 。 你 可 以 指定 时 间 片 的 间隔 ， 单 位 包括 秒 、 分 、 小 时 、 天 、 星 期 、 月 、 年 
histogram 聚合 接口 文档 见 http://www.elastic.co/guide/en/elasticsearch/reference/current//search- 
Histogram aggregations-bucket-histogram-aggregation.html。 基 于 数值 字段 创建 ， 为 这 个 字段 指定 一 个 整 
数 间 隔 。 勾 选 Show empty buckets 让 直方 图 中 包含 空 的 间隔 
range R A H O Xx IL http://www.elastic.co/guide/en/elasticsearch/reference/current//search- 
Range aggregations-bucket-range-aggregation.html。 可 以 为 一 个 数值 字段 指定 一 系列 区 间 ， 点 击 Add 
Range 添加 一 对 区 间 端 点 。 点 击 红色 (x) 符号 移 除 一 个 区 间 


( BE ) 
聚合 名 称 说 明 
date range 聚合 接口 文档 见 http://www.elastic.co/guide/en/elasticsearch/reference/current//search- 
aggregations-bucket-daterange-aggregation.html。 计 算 你 指定 的 时 间 区 间 内 的 值 。 可 以 使 用 


oer date math 表达 式 指定 区 间 ， 点 击 Add Range 添加 新 的 区 间 端 点 ， 点 击 红色 (/) 符号 移 除 
区 间 

ip_range 聚合 接口 文档 见 http://www.elastic.co/guide/en/elasticsearch/reference/current//search- 

IPv4 Range aggregations-bucket-iprange-aggregation.html。 用 来 指定 IPv4 地 址 的 区 间 ， 点 击 Add Range 


添加 新 的 区 间 端 点 ， 点 击 红 色 (/) 符号 移 除 区 间 
terms 聚合 接口 文档 见 http://www.elastic.co/guide/en/elasticsearch/reference/current//search- 
Terms aggregations-bucket-terms-aggregation.html。 人 允许 你 指定 展示 一 个 字段 的 首尾 几 个 元 素 ， 排 序 
方式 可 以 是 计数 或 者 其 他 自 定 义 的 metric 
filters 聚合 接口 文档 见 http://www.elastic.co/guide/en/elasticsearch/reference/current//search- 
aggregations-bucket-filters-aggregation.html。 你 可 以 为 数据 指定 一 组 filters， 每 个 filters 中 
可 以 用 query string， 也 可 以 用 JSON 格式 ， 就 像 在 Discover 页 的 搜索 栏 里 一 样 。 点 击 Add 
Filter 添加 下 一 个 过 滤 顺 
significant_terms 聚合 接口 文档 见 http://www.elastic.co/guide/en/elasticsearch/reference/current// 


search-aggregations-bucket-significantterms-aggregation.html。 展 示 significant_terms 的 结果 


Filters 


Significant Terms 


一 旦 你 定义 好 了 一 个 X 轴 聚合 。 你 可 以 继续 定义 子 聚 合 来 完善 可 视 化 效果 。 点 击 +Add Sub Aggregation 添 加 子 聚 合 ， 然 后 选择 Split Area 或 者 Split Chart， 并 从 类 型 菜单 中 选择 一 个 子 聚合 。 


当 一 个 图 形 中 定义 了 多 个 聚合 ， 你 可 以 使 用 聚合 类 型 右 侧 的 上 下 箭头 来 改变 聚合 的 优先 级 。 比 如 ， 一 个 事件 计数 的 日 期 图 ， 可 以 按照 时 序 显示 ， 你 也 可 以 提升 事件 聚合 的 优先 级 ， 首 先 显示 最 活跃 的 几 
天 。 时 序 图 用 来 显示 事件 随 着 时 间 变 化 的 趋势 ， 而 按照 活跃 时 间 排序 则 可 以 揭示 你 数据 中 的 部 分 异常 值 。 


Kibana 4.5 以 后 新 增 了 两 个 呼唤 已 久 的 功能 : 在 Custom Label 里 填写 自 定义 字符 串 ， 就 可 以 修改 显示 的 标签 文字 。 而 在 具体 标签 值 旁 边 的 颜色 上 点 击 ， 可 以 打开 “颜色 选择 器 ”， 如 图 17-13 所 示 ， 自 
定义 自己 的 可 视 化 效果 的 颜色 。 


@ Unique count of speaker 


图 17-13 颜色 选择 器 


可 以 点 击 Advanced 链 接 显示 更 多 有 关 聚 合 的 自 定义 参数 : 
“ Exclude Pattern: 指定 一 个 从 结果 集中 排除 掉 的 模式 。 
“ Exclude Pattern Flags: 排除 模式 的 Java flags 标 准 集 。 
“ Include Pattern: 指定 一 个 从 结果 集中 要 包含 的 模式 。 
“ Include Pattern Flags: 包含 模式 的 Java flags 标 准 集 。 


+ JSON Input: 一 个 用 来 添加 JSON 格 式 属性 的 文本 框 ， 内 容 会 合并 进 聚 合 的 定义 中 ， 格 式 如 下 例 : 


{ "script" : "doc['grade'].value * 1.2" } 
P' 


Oa Elasticsearch 1.4.3 及 以 后 版 本 ， 这 个 函数 需要 你 开启 dynamic Groovy scripting. 


下 面 参数 是 否 可 用 ， 取 决 于 你 选择 的 聚合 函数 。 
选择 view options 更 改 表格 中 如 下 方面 : 
- Chart Mode: 当 你 为 图 形 定义 了 多 个 Y 轴 时 ， 你 可 以 用 该 下 拉 菜 单 定义 聚合 如 何 显示 在 图 形 上 : 


Stacked: 聚合 结果 依次 登 加 在 顶部 。 


Overlap: 聚合 结果 重 登 的 地 方 采 用 半 透 明 效 果 。 
` Wiggle: 聚合 结果 显示 成 streamgraph 效 果 。 
` Percentage: 显示 每 个 聚合 在 总 数 中 的 百 分 值 。 


` Silhouette: 显示 每 个 聚合 距离 中 间 线 的 方差 。 


多 选 框 可 以 用 来 控制 以 下 行为 : 


“ Smooth Lines: 勾 选 该 项 平滑 数据 点 之 间 的 折线 成 曲线 。 

“ Set Y-Axis Extents: 勾 选 该 项 ， 然 后 在 y-max 和 y-min 框 里 输入 数值 限定 Y 轴 为 指定 数值 。 

+ Scale Y-Axis to Data Bounds: 默认 的 Y 轴 长 度 为 0 到 数据 集 的 最 大 值 。 勾 选 该 项 改变 Y 轴 的 最 大 和 最 小 值 为 数据 集 的 返回 值 。 
. Show Tooltip: 勾 选 该 项 显示 工具 栏 。 


- Show Legend: 勾 选 该 项 在 图 形 右 侧 显示 图 例 。 


17.4.2 table 


这 种 图 的 数值 可 以 采用 以 下 metric 聚 合 : Count, Average, Sum, Min, Max, Unique Coun, Percentile, Percentile Rank。 大 部 分 聚合 的 说 明 在 上 一 节 “area” 已 经 提供 ， 还 有 一 个 不 太一 样 的 
聚合 是 Standard Deviation: extended stats 聚 合 (http://www.elastic.co/guide/en/elasticsearch/reference/current//search-aggregations-metrics-extendedstats-aggregation.html) 返回 一 个 数 


值 字段 数据 的 标准 差 。 从 下 拉 菜 单 选择 一 个 字段 。 


你 可 以 点 击 +Add Aggregation 按 键 添加 一 个 聚合 。 数 据 表格 的 每 行 ， 叫 做 buckets。 你 可 以 定义 puckets 来 切割 表格 成 行 ， 或 者 切割 表格 成 另 一 个 表格 。 


每 个 bucket 类 型 都 支持 以 下 聚合 : Date Histogram, Histogram, Range, Date Range, IPv4 Range, Terms, Filters, Significant Terms， 同 样 ， 大 部 分 聚合 已 在 上 一 节 “area” 中 说 明 ， 还 有 一 


个 不 太一 样 的 聚合 是 Geohash: geohash 聚 合 (http://www.elastic.co/guide/en/elasticsearch/reference/current//search-aggregations-bucket-geohashgrid-aggregation.html) 显示 基于 地 理 坐 


一 旦 你 定义 好 了 一 个 X 轴 聚合 ， 可 以 继续 定义 子 聚 合 来 完善 可 视 化 效果 。 点 击 +Add Sub Aggregation 添 加 子 聚 合 ， 然 后 选择 Split Area 或 者 Split Chart， 并 从 类 型 菜单 中 选择 一 个 子 聚合 。 


当 一 个 图 形 中 定义 了 多 个 聚合 ， 你 可 以 使 用 聚合 类 型 右 侧 的 上 下 箭头 来 改变 聚合 的 优先 级 。 你 可 以 点 击 Advanced 链 接 显示 更 多 有 关 聚 合 的 自 定义 参数 ， 这 部 分 参见 上 一 节 “area”。 


下 面 参数 是 否 可 用 ， 取 决 于 你 选择 的 聚合 函数 。 选 择 view options 更 改 表格 中 如 下 方面 : 


` Per Page: 这 个 输入 框 控制 表格 的 翻 页 。 默 认 值 是 每 页 10 行 。 


多 选 框 用 来 控制 以 下 行为 : 


- Show metrics for every bucket/level: 勾 选 此 项 用 以 显示 每 个 bucket 聚 合 的 中 间 结 果 。 


+ Show partial rows: 勾 选 此 项 显示 没有 数据 的 行 。 
Os 开启 这 些 行为 可 能 带 来 性 能 上 的 显著 影响 。 


17.4.3 line 


这 种 图 的 Y 轴 是 “数值 ”维度 。 该 维度 可 用 聚合 参见 上 一 小 节 “table”。 


你 可 以 点 击 +Add Aggregation 按 键 添加 一 个 聚合 。 


buckets 聚 合 指明 从 你 的 数据 集中 将 要 检索 什么 信息 。 


图 切 分 必须 在 其 他 聚合 之 前 要 运行 。 如 果 你 切 分 图 形 ， 你 可 以 选择 切 分 结果 是 展示 成 行 还 是 列 的 形式 ， 点 
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在 你 选 定 一 个 buckets 聚 合 之 前 ， 先 指定 你 是 要 切割 单个 图 的 分 片 ， 还 是 切割 成 多 个 图 
击 Rows|Columns 选 择 器 即 可 。 


形 的 X 轴 是 buckets 维 度 。 你 可 以 为 X 轴 定义 buckets， 同 样 还 可 以 为 图 片上 的 分 片区 域 ， 或 者 分 割 的 图 片 定义 buckets。 


[ 


该 图 形 的 X 轴 支持 的 聚合 参见 17.4.1 节 中 的 表 17-2。 


一 旦 你 定义 好 了 一 个 X 轴 聚合 ， 可 以 继续 定义 子 聚 合 来 完善 可 视 化 效果 。 点 击 +Add Sub Aggregation 添 加 子 聚 合 ， 然 后 选择 Split Area 或 者 Split Chart， 并 从 类 型 菜单 中 选择 一 个 子 聚 合 。 


当 一 个 图 形 中 定义 了 多 个 聚合 ， 可 以 使 用 聚合 类 型 右 侧 的 上 下 箭头 来 改变 聚合 的 优先 级 。 


可 以 点 击 Advanced 链 接 显 示 更 多 有 关 聚 合 的 自 定义 参数 ， 这 部 分 和 前 面 的 “area” 小 节 一 致 。 


下 面 参数 是 否 可 用 ， 取 决 于 你 选择 的 聚合 函数 。 


多 选 框 可 以 用 来 控制 以 下 行为 : 


“ Y-Axis Scale: 可 以 给 图 形 的 Y 轴 选择 linear、log 或 square root 三 种 比例 。 你 可 以 给 指数 变化 的 数据 采用 log 函 数 比例 显示 ， 比 如 复 利 图 表 ; 也 可 以 用 平方 根 (square root) 比例 显示 数值 变化 差异 极 大 的 数 


据 集 。 这 种 可 变性 本 身 也 算 变 量 的 一 种 的 数据 ， 又 叫 异 方差 数据 。 比 如 ， 身 高 和 体重 的 数据 集 ， 在 较 矮 的 区 间 变 化 是 很 小 的 ， 但 是 在 较 高 另 一 个 区 间 ， 数 据 集 就 是 异 方差 式 的 。 
“ Smooth Lines: 勾 选 该 项 ， 将 图 中 的 数据 点 用 平滑 曲线 连接 。 注 意 : 平滑 曲线 在 高 峰 低 谷 处 给 人 的 印象 与 实际 值 有 较 大 偏差 。 


“ Show Connecting Lines: 勾 选 该 项 ， 将 图 中 的 数据 点 用 折线 连接 。 


“ Show Circles: 义 选 该 项 ， 将 图 中 的 数据 点 绘制 成 一 个 小 圆圈 。 

+ Current time marker: 对 时 序数 据 ， 勾 选 该 项 可 以 在 当前 时 刻 位 置 标记 一 条 红线 。 

“Set Y-Axis Extents: 勾 选 该 项 ， 然 后 在 y-max 和 y-min 框 里 输入 数值 限定 Y 轴 为 指定 数值 。 
. Show Tooltip: 为 选 该 项 显示 工具 栏 。 

- Show Legend: 义 选 该 项 在 图 形 右 侧 显示 图 例 。 


* Scale Y-Axis to Data Bounds: 默认 的 Y 轴 长 度 为 0 到 数据 集 的 最 大 值 。 勾 选 该 项 改变 Y 轴 的 最 大 和 最 小 值 为 数据 集 的 返回 值 。 


更 新 选项 后 ， 点 击 绿色 Apply changes 按 钮 更 新 可 视 化 界面 ， 或 者 灰色 Discard changes 按 钮 保持 原状 。 


通过 以 下 步骤 ， 可 以 转换 折线 图 成 气泡 图 : 


1) 为 Y 轴 点 击 Add Metrics 然 后 选择 Dot Size。 
2) 从 下 拉 框 里 选择 一 个 metric 聚 合 函 数 。 
3) 在 Options 标 签 里 ， 去 掉 Show Connecting Lines 的 勾 选 。 


4) 点 击 Apply changes 按 钮 。 


17.4.4 Markdown 


Markdown 挂 件 是 一 个 存放 GitHub 风 格 Markdown 内 容 的 文本 框 。Kibana 会 泻 染 你 输入 的 文本 ， 然 后 在 仪表 盘 上 显示 泻 染 结 果 。 可 以 点 击 Help 连 接 跳 转 到 help page 查 看 GitHub 风 格 Markdown 的 说 
明 。 点 击 Apply 在 预览 框 查看 泻 染 效果 ,或 者 Discard 回 退 成 上 一 个 版 本 的 内 容 。 


17.4.5 metric 


这 种 图 为 你 选择 的 聚合 显示 一 个 单独 的 数字 ， 可 用 聚合 参见 前 面 的 “table” 小 节 。 


你 可 以 点 击 +Add Aggregation 按 键 添加 一 个 聚合 。 你 可 以 点 击 Advanced 链 接 显示 更 多 有 关 聚 合 的 自 定义 参数 : 


JSON Input: 一 个 用 来 添加 JSON 格 式 属性 的 文本 框 ， 内 容 会 合并 进 聚 合 的 定义 中 ， 格 式 如 下 例 : 


{ "script" : "doc['grade'] .value * 1.2" } 


Oa Elasticsearch 1.4.3 及 以 后 版 本 ， 这 个 函数 需要 你 开启 dynamic Groovy scripting. 


点 击 view options 修 改 显 示 metric 的 字体 大 小 。 


17.4.6 pie 


饼 图 的 分 片 大 小 通过 metrics 聚 合 定义 。 这 个 维度 可 以 支持 以 下 聚合 : Count, Sum, Unique Count, 


[R 


buckets 聚 合 指明 从 你 的 数据 集中 将 要 检索 什么 信息 。 在 你 选 定 一 个 buckets 聚 合 之 前 ， 先 指定 你 是 要 切割 单个 图 的 分 片 ， 还 是 切割 成 多 个 图 形 。 多 图 切 分 必须 在 其 他 聚合 之 前 要 运行 。 如 果 你 切 分 
形 ， 你 可 以 选择 切 分 结果 是 展示 成 行 还 是 列 的 形式 ， 点 击 Rows|Columns 选 择 器 即 可 。 


你 可 以 为 饼 图 指定 以 下 任意 bucket 聚 合 : Date Histogram, Histogram, Range, Date Range, IPv4 Range, Terms, Filters, Significant Terms， 这 些 与 前 面 的 “area” 小 节 一 致 。 


一 旦 你 定义 好 了 一 个 X 轴 聚合 ， 可 以 继续 定义 子 聚 合 来 完善 可 视 化 效果 。 点 击 +Add Sub Aggregation 添 加 子 聚 合 ， 然 后 选择 Split Area 或 者 Split Chart， 并 从 类 型 菜单 中 选择 一 个 子 聚合 。 


当 一 个 图 形 中 定义 了 多 个 聚合 ， 你 可 以 使 用 聚合 类 型 右 侧 的 上 下 箭头 来 改变 聚合 的 优先 级 。 


可 以 点 击 Advanced 链 接 显示 更 多 有 关 聚 合 的 自 定义 参数 ， 这 部 分 和 前 面 的 “area” 小 节 一 致 。 


下 面 参数 是 否 可 用 ， 取 决 于 你 选择 的 聚合 函数 。 


选择 view options 可 更 改 表格 中 如 下 方面 : 


- Donut: 用 甜 圈 代 替 饼 图 样式 。 


+ Show Tooltip: 勾 选 该 项 显示 工具 栏 。 


- Show Legend: 勾 选 该 项 在 图 形 右 侧 显 示 图例 。 


17.4.7 tile map 


瓦 片 地 图 显示 一 个 由 圆圈 覆盖 着 的 地 理 区 域 ， 这 些 圆圈 则 由 你 指定 的 buckets 控 制 。 


瓦 片 地 图 的 默认 metrics 聚 合 是 Count 聚 合 ， 你 还 可 以 选择 下 列 任意 聚合 : Count, Average, Sum, Min, Max, Unique Count， 具 体 细节 参阅 前 面 的 “area” 小 节 。 


buckets 聚 合 指明 从 你 的 数据 集中 将 要 检索 什么 信息 。 在 你 选择 buckets 聚 合 前 ， 先 指定 你 是 打算 分 割 图 形 ， 还 是 在 单个 图 形 上 显示 buckets 为 Geo Coordinates。 多 图 切割 的 聚合 必须 在 最 先 运行 。 


瓦 片 地 图 使 用 Geohash 聚 合作 为 初始 化 聚合 。 从 下 拉 菜 单 中 选择 一 个 坐标 字段 ，Precision 滑 动 条 设置 圆圈 在 地 图 上 显示 的 颗粒 度 大 小 ， 可 阅读 geohash grid 聚 合 


(http://www.elastic.co/guide/en/elasticsearch/reference/current//search-aggregations-bucket-geohashgrid-aggregation.html#_ cell dimensions at the equator) 的 文档 ， 了 解 每 个 精度 级 别 


的 区 域 细节 。Kibana 5.1 目 前 支持 的 最 大 geohash 长 度 为 7。 


= 警告 更 高 的 精度 意味 着 消耗 浏览 器 和 Elasticsearch 集 群 更 多 的 内 存 。 


一 旦 你 定义 好 了 一 个 X 轴 聚合 ， 可 以 继续 定义 子 聚合 来 完善 可 视 化 效果 。 点 击 +Add Sub Aggregation 添 加 子 聚合 ， 然 后 选择 Split Area 或 者 Split Chart， 并 从 类 型 菜单 中 选择 一 个 子 聚合 。 具 体 可 用 聚 


合 说 明 参 见 “table” 人 小节。 


你 可 以 点 击 Advanced 链 接 显示 更 多 有 关 聚 合 的 自 定义 参数 ， 这 部 分 参见 “area” 小 节 一 致 。 


下 面 参数 是 否 可 用 ， 取 决 于 你 选择 的 聚合 函数 。 选 择 Options 改 变 可 视 化 的 如 下 方面 : 


< Map type: 从 下 拉 框 选择 下 面 一 个 选项 。 
Shaded Circle Markers: 根据 mettic 聚 合 的 值 显示 不 同 的 颜色 。 
+ Scaled Circle Markers: 根据 metric 聚 合 的 值 显示 不 同 的 大 小 。 
“ Shaded Geohash Grid: 用 拢 形 替换 默认 的 圆 形 显示 geohash， 根 据 mettic 聚 合 的 值 显示 不 同 的 颜色 。 
Heatmap: 热力 图 可 以 模糊 化 圆 标 而 且 层 登 显示 颜色 。 热 力图 本 身 还 有 如 下 选项 可 用 : 


Radius: 设置 单个 热力 图 点 的 大 小 。 


` Blur: 设置 热力 图 点 的 模糊 度 。 


- Maximum zoom: Kibana 的 Tilemap 支 持 18 级 缩放 。 该 选项 设置 热力 图 最 大 强度 下 的 最 高 缩放 级 别 。 
- Minimum opacity: 设置 数据 点 的 不 透明 截止 位 置 。 
“ Show Tooltip: 勾 选 该 项 ， 让 鼠标 放 在 数据 点 上 时 显示 该 点 的 数据 。 


- Desaturate map tiles: 淡化 地 图 颜色 ， 凸 显 标记 的 清晰 度 。 


WMS compliant map server 


由 于 原来 Kibana 4 中 使 用 的 地 图 服务 商 停止 了 公开 服务 ， 目 前 Elastic.co 公 司 自己 搭建 了 一 个 Elastic Tile Service 供 Kibana 5 服务 。 这 个 服务 地 址 可 以 通过 kibana.yml 中 的 tilemap.url 配 置 项 修改 。 目 前 
默认 值 是 : 


https://tiles.elastic.co/v1/default/{z}/{x}/{y}.png?elastic_tile_service_tos=agree&my_app_name=kkiban 


他 第 三 方 地 图 服务 都 可 以 使 用 。 这 种 方式 比 修改 kibana.yml 配 置 的 方式 能 够 定义 


除 此 以 外 ，Kibana 还 在 tilemap 的 Options 配 置 栏 提供 了 另 一 种 方式 ， 只 要 是 符合 Web Map Service (WMS) 标准 的 
更 多 地 图 细节 。 需 要 定义 的 配置 项 有 : 


“WMS url: WMS 地 图 服务 的 URL。 


“WMS layers: 用 于 可 视 化 的 图 层 列 表 ， 和 过 号 分 隔 。 每 个 地 图 服务 商都 会 提供 自己 的 图 层 。 
© WMS version: 该 服务 商 采 用 的 WMS 版 本 。 


“WIMS format: 该 服务 商 使 用 的 图 片 格式 ， 通 常 来 说 是 image/png 或 image/jpeg。 


“WIMS attribution: 可 选项 。 用 户 自 定义 字符 串 ， 用 来 显示 在 图 表 右 下 角 的 属性 说 明 。 


“WMS styles: 过 号 分 隔 的 风格 列表 。 每 个 地 图 服务 商都 会 提供 自己 的 风格 选项 。 


更 新 选项 后 ， 点 击 绿色 Apply changes 按 钮 更 新 可 视 化 界面 ， 或 者 灰色 Discard changes 按 钮 保持 原状 。 


可 视 化 地 图 就 绪 后 ， 你 可 以 通过 以 下 方式 探索 地 图 : 


: 在 地 图 任意 位 置 点 击 并 按 住 鼠 标 后 ， 拖 动 即 可 转移 地 图 中 心 。 按 住 鼠 标 左 键 拖 搜 绘制 方 框 则 可 以 放大 选 定 区 域 。 


+ 点 击 Zoom In/Out: 按 钮 手动 修改 缩放 级 别 。 
- 点 击 Fit Data Bounds ”按钮 让 地 图 自动 聚焦 到 至 少 有 一 个 数据 点 的 地 区 。 


“点击 Latitude/Longitude Filter 按钮， 然后 在 地 图 上 想 找 绘制 一 个 方 框 ， 自 动 生成 这 个 框 范围 的 经 纬度 过 滤器 。 


17.4.8 vertical bar 


的 Y 轴 是 “数值 ”维度 。 该 维度 的 可 用 聚合 与 前 面 的 “table” 小 节 一 致 。 


这 种 


E 


[ 


你 可 以 点 击 +Add Aggregation 按 键 添加 一 个 聚合 。buckets 聚 合 指明 从 你 的 数据 集中 将 要 检索 什么 信息 。 
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切 分 必须 在 其 他 聚合 之 前 要 运行 。 如 果 你 切 分 图 形 ， 你 可 以 选择 切 分 结果 是 展示 成 行 还 是 列 的 形式 ， 点 


在 你 选 定 一 个 buckets 聚 合 之 前 ， 先 指定 你 是 要 切割 单个 图 的 分 片 ， 还 是 切割 成 多 个 图 形 。 多 
击 Rows|Columns 选 择 器 即 可 。 


轨 形 的 X 轴 是 buckets 维 度 。 你 可 以 为 X 轴 定义 buckets， 同 样 还 可 以 为 图 片上 的 分 片区 域 ， 或 者 分 割 的 图 片 定义 buckets。 


该 图 形 的 X 轴 支持 的 聚合 ， 与 前 面 的 “area” 小 节 一 致 。 


一 旦 你 定义 好 了 一 个 X 轴 聚合 ， 可 以 继续 定义 子 聚合 来 完善 可 视 化 效果 。 点 击 +Add Sub Aggregation 添 加 子 聚合 ， 然 后 选择 Split Area 或 者 Split Chart， 并 从 类 型 菜单 中 选择 一 个 子 聚合 。 


当 一 个 图 形 中 定义 了 多 个 聚合 ， 可 以 使 用 聚合 类 型 右 侧 的 上 下 箭头 来 改变 聚合 的 优先 级 。 


你 可 以 点 击 Advanced 链 接 显示 更 多 有 关 聚 合 的 自 定义 参数 ， 参 见 前 面 “area” 小 节 。 

下 面 参数 是 否 可 用 ， 取 决 于 你 选择 的 聚合 函数 。 

选择 view options 更 改 表格 中 如 下 方面 : 

“ Bar Mode: 当 你 为 自己 的 图 形 定义 了 多 个 Y 轴 聚合 时 ， 你 可 以 用 这 个 选项 决定 聚合 显示 的 方式 : 

“ stacked: RAZZ BRESRMR. 
- percentage: 每 个 聚合 显示 为 总 和 的 百分比 。 
. grouped: 用 最 低 优先 级 的 子 聚合 的 结果 做 水 平分 组 。 

多 选 框 可 以 用 来 控制 以 下 行为 : 


- Show Tooltip: 勾 选 该 项 显示 工具 栏 。 


- Show Legend: 勾 选 该 项 在 图 形 右 侧 显示 图 例 。 


“Scale Y-Axis to Data Bounds: 默认 的 Y 轴 长 度 为 0 到 数据 集 的 最 大 值 。 匀 选 该 项 改变 Y 轴 的 最 大 和 最 小 值 为 数据 集 的 返回 值 。 
17.4.9 tagcloud 


Kibana 在 最 新 的 5.1.1 版 新 增 了 一 种 可 视 化 效果 : tagcloud， 也 就 是 常 说 的 “文字 云 ” 效 果 。 每 个 单词 文字 的 大 小 ， 由 数值 聚合 结果 决定 。 可 用 聚合 与 前 面 的 “table” 人 小 节 一 致 。 
而 buckets 聚 合 只 支持 terms 一 种 方式 。 

选择 options， 可 以 更 改 可 视 化 的 如 下 方面 : 

+ Text Scale: 可 选 值 为 linear、log 和 squate root。 该 选项 用 来 设 定 不 同文 字 之 间 大 小 的 差距 采用 线性 、 对 数 还 是 平方 根 式 增加 。 

- Orientation: 可 选 值 为 : single、tight angles 和 multiple。 该 选项 用 来 设 定 文字 云 中 单词 的 定位 方式 。 


+ Font Size: 用 来 设 定 文字 云 中 文本 大 小 的 最 大 和 最 小 值 。 


17.5 “仪表 盘 功 能 


Kibana 中 的 dashboard 功 能 可 让 你 自由 排列 一 组 已 保存 的 可 视 化 。 然 后 你 可 以 保存 这 个 仪表 盘 ， 用 来 分 享 或 者 重 载 。 


Save Open Share Options © Last2 years 


Discover 


Visualize 


Ready to get started? 


Dashboard 
Click the Add button in the menu bar above to add a visualization to the dashboard. 


Us If you haven't setup a visualization yet visit the "Visualize" tab to create your first visualization. 


Management 


Dev Tools 


图 17-14 ” dashboard 示例 


17.5.1 开始 


要 用 仪表 盘 ， 你 需要 至 少 有 一 个 已 保存 的 visualization。 下 面 是 几 个 功能 介绍 : 


: 创建 一 个 新 的 仪表 盘 。 你 第 一 次 点 击 Dashboard 标 签 的 时 候 ，Kibana 会 显示 一 个 空白 的 仪表 盘 ， 如 图 17-15 所 示 。 通 过 添加 可 视 化 的 方式 来 构建 你 的 仪表 盘 。 


Wamp Dashbaarzi Sarngs -ayen ago i ~ n yonr ago © 


Ready to get started? 


Oich the ED button in the menu ber above to add a visualization te the dashboard. 
Wycu haven't setup a visualization yet visit the "Visualize" tam to croate your fret visualization, 


图 17-15 ERA 


: 添加 可 视 化 到 仪表 盘 上 。 要 添加 可 视 化 到 仪表 意 上 ， 点 击 工具 栏 面 板 上 的 Add Visua-lization 回 按钮 :从 列表 中 选择 一 个 已 保存 的 可 视 化 。 你 可 以 在 Visualization Filter 里 输入 字符 串 来 过 滤 想 要 找 的 可 视 化。 
由 你 选择 的 这 个 可 视 化 会 出 现在 你 仪表 盘 上 的 一 个 容器 (container) 里 。 如 果 你 觉得 容器 的 高 度 和 宽度 不 合适 ， 可 以 调整 容器 大 小 。 稍 后 有 详细 说 明 。 


: 保存 仪表 盘 。 要 保存 仪表 盘 ， 点 击 工具 栏 面板 上 的 Save Dashboard 按 钮 ， 在 Save As 栏 输入 仪表 盘 的 名 字 ， 然 后 点 击 Save 按 钮 。 


:加载 已 保存 仪表 盘 。 点 击 Load Saved Dashboard 按 钮 显示 已 存在 的 仪表 盘 列表 。 已 保存 仪表 盘 选 择 器 包括 了 一 个 文本 栏 可 以 通过 仪表 盘 的 名 字 做 过 滤 ， 还 有 一 个 链接 到 Object Editor 而 已 管理 你 的 已 保存 
仪表 盘 。 你 也 可 以 直接 点 击 Settings 一 Edit Saved Objects 来 访问 Object Editor. 


: 分 享 仪表 盘 。 你 可 以 分 享 仪表 盘 给 其 他 用 户 。 可 以 直接 分 享 Kibana 的 仪表 盘 链接 ， 也 可 以 谨 入 到 你 的 网 页 里 。 用 户 必 须 有 Kibana 的 访问 权限 才能 看 到 嵌入 的 仪表 瘟 。 点 击 Share 按 钮 显示 HTML 人 代码， 就 
可 以 庶 入 仪表 盘 到 其 他 网 页 里 。 还 带 有 一 个 指向 仪表 盘 的 链接 。 点 击 复制 按钮 鸭 可 以 复制 代码 ， 或 者 链接 到 你 的 粘贴 板 。 


: 许 入 仪表 盘 。 要 嵌入 仪表 盘 ， 从 Share 页 里 复制 出 嵌入 代码 ， 然 后 粘贴 进 你 外 部 网 页 应 用 内 即 可 。 


175.2 ”容器 功能 
仪表 盘 里 的 可 视 化 都 存在 可 以 调整 大 小 的 “容器 ”里 ， 接 下 来 会 讨论 一 下 容器 功能 。 
移动 容器 。 点 击 并 按 住 容器 的 顶部 ， 就 可 以 拖 动 容器 到 仪表 瘟 任意 位 置 。 其 他 容器 会 在 必要 的 时 候 自动 移动 ， 给 你 在 拖 动 的 这 个 容器 空 出 位 置 。 松 开 鼠 标 ， 容 器 就 会 固定 在 当前 停留 位 置 。 
变 容 器 大 小 。 移 动 光标 到 容器 的 右 下 角 ， 等 光标 变 成 指向 拐角 的 方向 ， 点 击 并 按 住 鼠 标 ， 拖 动 改变 容器 的 大 小 。 
“ 删除 容器 。 点 击 容器 右上 角 的 x 图 标 删 除 容器 。 从 仪表 盘 删 除 容器 ， 并 不 会 同时 删除 挤 容 器 里 用 到 的 已 存 可 视 化 。 


“ 查看 详细 信息 。 要 显示 可 视 化 背后 的 原始 数据 ， 点 击 容器 底部 的 条 带 。 可 视 化 会 被 有 关 原 始 数据 详细 信息 的 几 个 标签 蔡 换 掉 。 标 签 包括 : 表格 、 请 求 、 统 计 值 ， 下 面 分 别 介绍 : 


- 表格 (Table) 。 底 层 数 据 的 分 页 展示 。 你 可 以 通过 点 击 每 列 顶 部 的 方式 给 该 列 数据 排序 ， 如 图 17-16 所 示 。 


NYCTA: Injury count by type Manhattan 


v 


filters $ 


number_of_cyclist_injured:[1 TO *] 
number_of_motorist_injured:[{1 TO *] 
number_of_pedestrians_injured:[1 TO *] 


number_of_persons_injured:[1 TO *] 


Export: Raw & Formatted & 


图 17-16 ”数据 表格 


-HR (Request) 。 发 送 到 服务 器 的 原始 请 求 ， 以 JSON 格 式 展 示 ， 如 图 17-17 所 示 。 


“ 响应 (Response) 。 从 服务 器 返回 的 原始 响应 ， 同 样 以 SON 格 式 展 示 ， 如 图 17-18 所 示 。 


统计 值 (Statistics) 。 和 请 求 响应 相关 的 一 些 统计 值 ， 以 数据 网 格 的 方式 展示 。 包 括 数 据 报 告 、 请 求 时 间 、 响 应 时 间 、 返 回 的 记录 条 目 数 、 匹 配 请 求 的 索引 模式 (index pattem) , 4 
17.5.3 ”修改 可 视 化 


点 击 容器 右上 角 的 Edit 按 钮 2 在 Visualize 页 打开 可 视 化 编辑 。 


NYCTA: Injury count by type Manhattan 


| v 


Elasticsearch request body 


{ 
"size": 0, 
“aggs": { 
"2": { 
"filters": { 
"filters": { 
"number_of cyclist injured: [1 TO *]": { 
"query": { 
"query_string": { 
"query": “number_of_cyclist_injured: [1 TO *]", 
“analyze_wildcard": true 
} 
} 
}, 
"number_of motorist injured: {1 TO *]": { 
"query": { 
“query_string": + 
"query": “number_of_motorist_injured:[1 TO +l", 
“analyze_wildcard": true 


图 17-17 请 求 数据 


17-19 所 示 。 


NYCTA: Injury count by type Manhattan 


"took": 32, 
“timed_out": false, 
"shards": { 
"total": 5, 
"successful": 5, 
"failed": 0 
}, 
"hits": { 
"total": 947, 
"“max_score": @, 
"hits": [] 
}, 
"aggregations": { 
Ww ab { 
"buckets": { 
"number_of_cyclist_injured:[1 TO *]": { 
“doc_count": 25 
}, 
“number_of_motorist_injured: [1 TO *]": { 
"doc_count": 41 
}, 


图 17-18 原始 响应 


NYCTA: Injury count by type Manhattan 


v 


Query Duration 32ms 


Request Duration 289ms 


图 17-19 表格 显示 


17.5.4 修改 主题 风格 


默认 情况 下 ，Kibana 仪 表 板 使 用 明亮 风格 。 如 果 你 想 切 换 成 黑色 风格 ， 点 击 Options， 然 后 勾 选 Use dark theme。 如 果 想 设置 默认 风格 为 黑色 ， 需 要 到 Management/Kibana/Advanced Settings 
面 , 设置 dashboard: defaultDarkTheme 选 项 的 值 为 true。 


17.6 management 功 能 


要 使 用 Kibana， 你 就 得 告诉 它 你 想 要 探索 的 Elasticsearch 索 引 是 哪些 ， 这 就 要 配置 一 个 或 者 更 多 的 索引 模式 。 此 外 ， 你 还 可 以 进行 以 下 操作 : 


+ 创建 脚本 化 字段 ， 这 个 字段 可 以 实时 从 你 的 数据 中 计算 出 来 。 你 可 以 浏览 这 种 字段 ， 并 且 在 其 基础 上 做 可 视 化 ， 但 是 不 能 搜索 这 种 字段 。 
“ 设置 高 级 选项 ， 比 如 表格 里 显示 多 少 行 ， 常 用 字段 显示 多 少 个 。 修 改 高 级 选项 的 时 候 要 千 万 小 心 ， 因 为 一 个 设置 很 可 能 跟 另 一 个 设置 是 不 兼容 的 。 
“ 配置 X-Pack 套 件 等 其 他 插件 扩展 出 来 的 高 级 配置 项 。 


下 面 逐一 介绍 management 功 能 。 


17.61 ”创建 一 个 连接 到 Elasticsearch 的 索引 模式 


索引 模式 定义 了 一 个 或 者 多 个 你 打算 探索 的 Elasticsearch 索 引 。Kibana 会 查找 匹配 指定 模式 的 索引 名 。 模 式 中 的 通配符 (*) 匹配 零 到 多 个 字符 。 比 如 ， 模 式 myindex-* 匹 配 所 有 名 字 以 myindex- 开 头 
的 索引 ， 如 myindex-1 和 myindex-2。 


如 果 你 用 了 事件 时 间 来 创建 索引 名 (比如 ， 如 果 你 是 用 Logstash 往 Elasticsearch 里 写 数据 ) ， 索 引 模 式 里 也 可 以 匹配 一 个 日 期 格式 。 在 这 种 情况 下 ， 模 式 的 静态 文本 部 分 必须 用 中 括号 包含 起 来 ， 日 期 
格式 能 用 的 字符 ， 参 见 表 17-3。 


表 17-3 日 期 格式 码 


GGGG 


描 BR 
Month - cardinal: 1 2 3 … 12 
Month - ordinal: Ist 2nd 3rd … 12th 
Month - two digit: 01 02 03 … 12 
Month - abbreviation: Jan Feb Mar *… Dec 
Month - full: January February March --- December 
Quarter: 1 2 3 4 
Day of Month - cardinal: 123… 31 
Day of Month - ordinal: 1st 2nd 3rd … 31st 
Day of Month - two digit: 01 02 03 … 31 
Day of Year - cardinal: 1 2 3 … 365 
Day of Year - ordinal: 1st 2nd 3rd … 365th 
Day of Year - three digit: 001 002 --- 364 365 
Day of Week - cardinal: 0 13 … 6 
Day of Week - ordinal: Oth 1st 2nd … 6th 
Day of Week - 2-letter abbreviation: Su Mo Tu … Sa 
Day of Week - 3-letter abbreviation: Sun Mon Tue *… Sat 
Day of Week - full: Sunday Monday Tuesday --- Saturday 
Day of Week (locale): 0 1 2 --- 6 
Day of Week (ISO): 1 2 3 7 
Week of Year - cardinal (locale): 1 2 3 … 53 
Week of Year - ordinal (locale): Ist 2nd 3rd … 53rd 
Week of Year - 2-digit (locale): 01 02 03 … 53 
Week of Year - cardinal (ISO): 1 2 3 … 53 
Week of Year - ordinal (ISO): Ist 2nd 3rd … 53rd 
Week of Year - two-digit (ISO): 01 02 03 … 53 
Year - two digit: 70 71 72 … 30 
Year - four digit: 1970 1971 1972 … 2030 
Week Year - two digit (locale): 70 71 72 … 30 
Week Year - four digit (locale): 1970 1971 1972 … 2030 
Week Year - two digit (ISO): 70 71 72 … 30 
Week Year - four digit (ISO): 1970 1971 1972 --- 2030 


te R 描 B 

A AM/PM: AM PM 

a am/pm: am pm 

H Hour: 0 1 2 ++ 23 

HH Hour - two digit: 00 01 02 … 23 

h Hour - 12-hour clock: 1 23 +++ 12 

hh Hour - 12-hour clock, 2 digit: 01 02 03 … 12 

m Minute: 0 1 2 … 59 

mm Minute - two-digit: 00 01 02 … 59 

S Second: 0 1 2 … 59 

SS Second - two-digit: 00 01 02 … 59 

S Fractional Second - 10ths:0 1 2 … 9 

SS Fractional Second - 100ths: 0 1 … 98 99 

SSS Fractional Seconds - 1000ths: 0 1 … 998 999 

Z Timezone - zero UTC offset (hh:mm format): -07:00 -06:00 -05:00 .. +07:00 
ZZ, Timezone - zero UTC offset (hhmm format): -0700 -0600 -0500 … +0700 
X Unix Timestamp: 1360013296 

x Unix Millisecond Timestamp: 1360013296123 


比如 ，[logstash-]YYYY.MM.DD 匹 配 所 有 名 字 以 logstash -为 前 缀 ， 后 面 跟 上 YYYY.MM.DD 格 式 时 间 戳 的 索引 ， 比 如 logstash-2015.01.31 和 logstash-2015-02-01。 


索引 模式 也 可 以 简单 地 设置 为 一 个 单独 的 索引 名 字 。 


要 创建 一 个 连接 到 Elasticsearch 的 索引 模式 ， 应 如 下 操作 : 
1) 切换 到 Settings 一 Indices 标 签 页 。 


2) 指定 一 个 能 匹配 你 的 Elasticsearch 索 引 名 的 索引 模式 。 默 认 情况 下 ，Kibana 会 假设 你 是 要 处 理 Logstash 导 入 的 数据 。 


(o = 当 你 在 顶层 标签 页 之 间 切 换 的 时 候 ，Kibana 会 记 住 你 之 前 停留 的 位 置 。 比 如 ， 如 果 你 在 Settings 标 签 页 查看 了 一 个 索引 模式 ， 然 后 切换 到 Discovet 标 签 ， 再 切 找 回 Settings 标 签 ，Kibana 还 会 显 
示 上 次 你 查看 的 索引 模式 。 要 看 到 创建 模式 的 表单 ， 需 要 从 索引 模式 列表 里 点 击 Add 按 钮 。 


3) 如 果 你 索引 有 时 间 惟 字段 打算 用 来 做 基于 事件 的 对 比 ， 勾 选 Index contains time-based events 然 后 选择 包含 了 时 间 戳 的 索引 字段 。Kibana 会 读 取 索引 映射 ， 列 出 所 有 包含 了 时 间 戳 的 字段 供 选 
择 。 


4) 点 击 Create 添 加 索引 模式 。 
5) 要 设置 新 模式 作为 你 查看 Discover 页 是 的 默认 模式 ， 点 击 favorite 按 钮 。 
下 面 介绍 几 个 设置 选项 。 


1. 设 置 默认 索引 模式 


默认 索引 模式 会 在 你 查看 Discover 标 签 的 时 候 自 动 加 载 。Kibana 会 在 Settings 一 Indices 标 签 页 的 索引 模式 列表 里 ， 给 默认 模式 左边 显示 一 个 星 号 。 你 创建 的 第 一 个 模式 会 自动 设置 为 默认 模式 。 


要 设置 一 个 另外 的 模式 为 默认 索引 模式 ， 应 如 下 操作 : 
1) 进入 Settings 一 Indices 标 签 页 。 

2) 在 索引 模式 列表 里 选择 你 打算 设置 为 默认 值 的 模式 。 
3) 点 击 模式 的 Favorite 标 签 。 


你 也 可 以 在 Advanced 一 Settings 里 设置 默认 索引 模式 。 
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2. 重 加 载 索引 的 字段 列表 


当 你 添加 了 一 个 索引 映射 ，Kibana 自 动 扫描 匹配 模式 的 索引 以 显示 索引 字段 。 你 可 以 重 加 载 索 引 字段 列表 ， 以 显示 新 添加 的 字段 。 


重 加 载 索引 字段 列表 ， 也 会 重 设 Kibana 的 常用 字段 计数 器 。 这 个 计数 器 是 跟踪 你 在 Kibana 里 常用 字段 ， 然 后 来 排序 字段 列表 的 。 


要 重 加 载 索引 的 字段 列表 ， 应 如 下 操作 : 


1) 进入 Settings 一 Indices 标 签 页 。 


N 


在 索引 模式 列表 里 选择 一 个 索引 模式 。 


3) 点 击 模式 的 Reload 按 钮 。 


we 


出 除 一 个 索引 模式 


要 删除 一 个 索引 模式 ， 应 如 下 操作 : 


= 


进入 Settings 一 Indices 标 签 页 。 


2) 在 索引 模式 列表 里 选择 你 打算 删除 的 模式 。 


3) 点 击 模式 的 Delete 按 钮 。 


4) 确认 你 是 想 要 删除 这 个 索引 模式 。 


17.6.2 ”字段 格式 


Kibana 支 持 设置 字段 值 的 展示 格式 。 这 个 格式 是 以 该 字段 值 在 Elasticsearch 中 的 原始 存储 格式 为 基础 ， 经 过 JavaScript 处 理 而 来 的 。 在 Kibana 中 ， 字 段 格式 (fieldFormatter) 是 一 种 可 扩展 的 插件 类 
型 。 目 前 ，Kibana 默 认 内 置 的 字段 格式 主要 基于 四 种 Elasticsearch 存 储 格式 : String、Date、Geo_Point、Number， 如 下 所 示 : 


“ Stting 类 型 字段 值 可 以 设置 格式 为 Stting 和 Ud 两 种 格式 。 其 中 ，Stting 格 式 支持 大 写 、 小 写 、 缩 写 三 种 转换 ; Ud 格 式 支持 链接 和 图 片 两 种 转换 。 比 如 : 一 个 ip 地 址 字段 ， 设 置 其 字段 格式 为 DH， 然后 填写 
URI 模 板 为 : 


+ http://www.ip138.com/ips138.asp? ip={ {value} } 


那 你 可 以 在 界面 上 一 键 点 击 查看 jp138 上 的 解析 结果 了 。 


:Date 类 型 字段 值 可 以 设置 格式 为 Stting、UH 和 Date 三 种 格式 。 其 中 Date 格 式 采 用 moment,js 库 做 格式 转换 。 具 体 写 法 见 表 17-3。 
< Geo_Point 类 型 字段 值 可 以 设置 格式 为 String。 
- Number 类 型 字段 值 可 以 设置 格式 为 String、Ur、Bytes、Duration、Number、Percentage 或 Color 七 种 格式 。 其 中 Bytes、Number、Percentage 格 式 采 用 numeral.js 库 做 格式 转换 ， 示 例如 表 17-4 所 示 。 


表 17-4 Bytes、Number、Percentage 格 式 转换 示例 


es nae 
Bytes 7884486213 7.34GB 
Percentage 0.974878234 97.488% 
Number 10000 10,000.0000 


Color 格 式 的 用 途 是 ， 当 字段 值 在 特定 的 某 个 数值 区 间 内 时 ， 采 用 何 种 颜色 显示 。 配 置 界面 如 图 17-20 示 。 


Type 


number 


Format (Default: Number 


Color 


Range (min:max) 


0-50 


Range (min:max) 


51-100 


Range (min:max) 


101-150 


+ Add Color 


Font Color 


#85533e 


Font Color 


#3465ad 


Font Color 


#2e9e40 


Background Color 
#f2e6f7 


Background Color 
#f2e6f7 


Background Color 
#f2e6f7 


图 17-20 ”数值 颜色 配置 


Ox 既然 说 是 展示 格式 ， 也 就 是 说 这 个 设置 在 Discover、Visualize、Dashboard 中 都 有 效 。 


17.6.3 ”创建 一 个 脚本 化 字段 


A Warning 


Example 


123456 


脚本 化 字段 从 你 的 Elasticsearch 索 引 数 据 中 即时 计算 得 来 。 在 Discover 标 签 页 ， 脚 本 化 字段 数据 会 作为 文档 数据 的 一 部 分 显示 ， 而 且 你 还 可 以 在 可 视 化 里 使 用 脚本 化 字段 。 


的 时 候 计 算 的 ， 所 以 它们 没有 被 索引 ， 不 能 搜索 到 。) 


A 
v 


(脚本 化 字段 的 值 是 在 请 求 


Oe 即时 计算 脚本 化 字段 非常 消耗 资源 ， 会 直接 影响 到 Kibana 的 性 能 。 而 且 记 住 ，Elasticsearch 里 没有 内 置 对 脚本 化 字段 的 验证 功能 。 如 果 你 的 脚本 有 bug， 你 会 在 查看 动态 生成 的 数据 时 看 到 


exceptions 


脚本 化 字段 使 用 Lucene 表 达 式 语法 。 更 多 细节 ， 请 阅读 Lucene Expressions Scripts, 


你 可 以 在 表达 式 里 引用 任意 单个 数值 类 型 字段 ， 比 如 : 


doc['field_name'] .value 


要 创建 一 个 脚本 化 字段 ， 应 如 下 操作 : 
1) 进入 Settings 一 Indices 


2) 选择 你 打算 添加 脚本 化 字段 的 索引 模式 。 


3) 进入 模式 的 Scripted Fields 标 签 。 
4) 点 击 Add Scripted Field。 


5) 输入 脚本 化 字段 的 名 字 。 


6) 输入 用 来 即时 计算 数据 的 表达 式 。 


7) 点 击 Save Scripted Field。 

有 关 Elasticsearch 的 脚本 化 字段 的 更 多 细节 ， 阅 读 http://www.elasticsearch.org/guide/enyelasticsearchyreference/current/modules-scripting.html。 
要 更 新 一 个 脚本 化 字段 ， 应 如 下 操作 : 

1) 进入 Settings 一 Indices。 

2) 点 击 你 要 更 新 的 脚本 化 字段 的 Edit 按 钮 。 


3) 完成 变更 后 点 击 Save Scripted Field 升 级 。 


Os Elasticsearch 里 没有 内 置 对 脚本 化 字段 的 验证 功能 。 如 果 你 的 脚本 有 bug， 你 会 在 查看 动态 生成 的 数据 时 看 到 exception。 


要 删除 一 个 脚本 化 字段 ， 应 如 下 操作 : 
1) 进入 Settings 一 Indices。 
2) 点 击 你 要 删除 的 脚本 化 字段 的 Delete 按 钮 。 


3) 确认 你 确实 想 删 除 它 。 


1764 ”设置 高 级 参数 


高 级 参数 页 允许 你 直接 编辑 那些 控制 着 Kibana 应 用 行为 的 设置 。 比 如 ， 你 可 以 修改 显示 日 期 的 格式 ， 修 改 默认 的 索引 模式 ， 设 置 十 进 制 数值 的 显示 精度 。 


[= 修改 高 级 参数 可 能 带 来 意 想不到 的 后 果 。 如 果 你 不 确定 自己 在 做 什么 ， 最 好 离开 这 个 设置 页 面 。 


要 设置 高 级 参数 ， 应 如 下 操作 : 
1) 进入 Settings 一 Advanced。 
2) 点 击 你 要 修改 的 选项 的 Edit 按 钮 。 
3) 给 这 个 选项 输入 一 个 新 的 值 。 


4) 点 击 Save 按 钮 。 


17.6.5 ”管理 已 保存 的 搜索 、 可 视 化 和 仪表 盘 


你 可 以 从 Settings 一 Objects 查 看 、 编 辑 和 删除 已 保存 的 搜索 、 可 视 化 和 仪表 盘 。 


查看 一 个 已 保存 的 对 象 会 显示 在 Discover、Visualize 或 Dashboard 页 里 已 选择 的 项 目 。 要 查看 一 个 已 保存 对 象 ， 应 如 下 操作 : 


1) 进入 Settings 一 Objects。 
2) 选择 你 想 查看 的 对 象 。 


3) 点 击 View 按 钮 。 


编辑 一 个 已 保存 对 象 让 你 可 以 直接 修改 对 象 定义 。 你 可 以 修改 对 象 的 名 字 ， 添 加 一 段 说 明 ， 以 及 修改 定义 这 个 对 象 的 属性 的 JSON。 
如 果 你 尝试 访问 一 个 对 象 ， 而 它 关联 的 索引 已 经 被 删除 了 ，Kibana 会 显示 这 个 对 象 的 编辑 (Edit Object) 页 。 你 可 以 进行 如 下 操作 : 
“ 重建 索引 这 样 就 可 以 继续 用 这 个 对 象 。 

“ 删除 对 象 ， 然 后 用 另 一 个 索引 重建 对 象 。 


- 在 对 象 的 kibanaSavedObjectMeta.seatchSoutrceJSON 里 修改 引用 的 索引 名 ， 指 向 一 个 还 存在 的 索引 模式 。 这 个 在 你 的 索引 被 重 命名 了 的 情况 下 非常 有 用 。 


对 象 属性 没有 验证 机 制 。 提 交 一 个 无 效 的 变更 会 导致 对 象 不 可 用 。 通 常 来 说， 你 还 是 应 该 用 Discover、Visualize 或 Dashboard 页 面 来 创建 新 对 象 而 不 是 直接 编辑 已 存在 的 对 象 。 


要 编辑 一 个 已 保存 的 对 象 ， 应 如 下 操作 : 
1) 进入 Settings 一 Objects。 
2) 选择 你 想 编辑 的 对 象 。 


3) 点 击 Edit 按 钮 。 


4) 修改 对 象 定义 。 

5) 点 击 Save Object 按钮 。 

要 删除 一 个 已 保存 的 对 象 ， 应 如 下 操作 : 
1) 进入 Settings 一 Objects。 

2) 选择 你 想 删除 的 对 象 。 

3) 点 击 Delete 按 钮 。 


4) 确认 你 确实 想 删除 这 个 对 象 。 


17.7 ”设置 Kibana 服 务 器 属性 


Kibana 服 务 器 在 启动 的 时 候 会 从 kibana.yml 文 件 读 取 属 性 设置 。 默 认 设置 是 运行 在 localhost: 5601。 要 变更 主机 或 端口 ， 或 者 连接 远 端 主机 上 的 Elasticsearch， 你 都 需要 更 新 你 的 kibana yml 文 件 。 
你 还 可 以 开启 SSL 或 者 设置 其 他 一 系列 选项 。 具 体 属性 描述 见 表 17-5: 


表 17-5 ”Kibana 服 务 器 属性 


属 性 描 R 
server.port Kibana 服务 器 运行 的 端口 。 默 认为 5601 
server.host Kibana 服务 器 监听 的 地 址 。 默 认为 localhost 
server.basePath Kibana 服务 器 的 根 路 径 。 部 署 在 代理 服务 器 后 面 时 有 效 。 默 认为 "7" 
server.maxPayloadBytes 最 大 的 服务 器 响应 体 字 节 数 。 默 认为 1048576 
server.defaultRoute 打开 Kibana 首页 时 的 默认 跳 转 路 径 。 默 认为 /app/kibana 
server.ssl.*** Kibana 服务 器 的 SSL 相关 配置 ， 用 来 加 密 浏览 器 和 Kibana 之 间 的 通信 
console.enabled 是 否 允 许 使 用 console app 
kibana.index 保存 搜索 、 可 视 化 、 仪 表盘 信息 的 索引 名 。 默 认为 .kibana 
kibana defaultAppld 进入 kibana By a 认 z AR ÉJ W io PJ LAX discover, visualize, dashboard 或 

management. RAX discover 

tilemap.url tilemap 的 服务 接口 URL 
tilemap.options.*** tilemap 的 可 选 配 置 
elasticsearch.url 你 想 请求 的 索引 在 哪个 ES 实例 上 。 默 认为 http://localhost:9200 
elasticsearch.requestTimeonut ES 服务 器 的 请 求 超 时 时 间 。 单 位 为 毫秒 。 默 认为 30000 
elasticsearch.pingTimeout ES 服务 器 的 ping 超时 时 间 。 默 认 等 于 上 一 条 
elasticsearch.startupTimeonut Kibana 进程 启动 时 等 待 ES 服务 器 啊 应 的 时 间 。 默 认为 5000 
elasticsearch.ssl.*** ES 服务 器 的 SSL 相关 配置 ， 用 来 加 密 Kibana 和 Elasticsearch 之 间 的 通信 


17.8 常用 sub agg 示 例 


本 章 开始 ， 就 提 到 Kibana 5 和 Kibana 3 的 区 别 ， 在 Kibana 5 中 ， 即 便 介 绍 完了 全 部 visualize 的 配置 项 ， 也 不 代表 用 户 能 立刻 上 手 配置 出 来 和 Kibana 3 一 样 的 面板 。 所 以 本 节 会 以 几 个 具体 的 日 志 分 析 需 
求 为 例 ， 演 示 在 Kibana 5 中 ， 利 用 Elasticsearch 1.0 以 后 提供 的 Aggregation 特 性 ， 能 够 做 到 哪些 有 用 的 可 视 化 效果 。 


17.8.1 ”函数 堆栈 链 分 析 


本 书 之 前 已 经 介绍 过 Logstash 如 何 利用 multiline 或 者 log4j 插 件 解析 函数 堆栈 。 那 么 ， 对 函数 堆栈 ， 我 们 除了 对 底层 函数 做 基础 的 topN 排 序 ， 还 能 深入 发 掘 出 来 什么 信息 呢 ? 


到 17-21 是 一 个 PHP 慢 函数 堆栈 的 可 视 化 统计 : 


该 图 和 


p 


了 Kibana 5 的 sub aggs 特 性 。 按 照 分 层次 的 函数 堆栈 ， 逐 层 做 terms agg。 得 到 一 个 类 似 火焰 图 效果 的 干 层 饼 效 果 。 


[logstash-mweibo-JYYYY.MM.DD 


Data Options 


Count 


Top 10 siow.1 EEE N curl_exec) /data1/v5.weibo.cn/code/application/ibrary/Comm/Http/C 22,261 
; url, php:359 (83.35%) 


Top 10 siow.2 ED request) /data1/VS.welbo.cr/code/application/ibrary/ApUPiatform.ph 1,410 
p:359 (6.33%) 


Top 10 siow.3 ERED slow.3 tAuth2Request() /data1/v5.welbo.cn/code/application/ibrary/ApW/Platfo 1,111 


rm/Statuses.php:77 (84.04%) 
Top 10 siow.4 ESSER getFriendsTimeline) /data1/VS.welbo.cn/code/application/models/Stat 995 
P Add sub-buckets 


Slow.4 uses.php:100 (09.56%) 


图 17-21 慢 函 数 堆栈 


和 火焰 图 不 同 的 是 ， 干 层 饼 并 不 能 自动 深入 到 函数 堆栈 的 全 部 层次 ， 需 要 自己 手动 指定 聚合 到 第 几 层 。 考 虑 到 重复 操作 在 页 面 上 不 是 很 方便 。 可 以 利用 Kibana 5 的 url 里 自 带 rison 序 列 化 配置 项 的 特 
性 ， 直 接 修改 地 址 生成 效果 。 图 17-21 的 url 如 下 : 


http://k4domain:5601/#/visualize/edit/php-slow-stack-pie?_g=()&_a=(filters:! (),linked: !t, query: (query_string: (query:'*')),vis: (aggs:! ((id:'1', params: (), schema:metric, type:count 


可 以 看 到 ， 如 果 打 算 增 减 堆栈 的 聚合 层次 ， 对 应 增 减 一 段 (id: ‘5’ , params: (field: slow.4, order: desc, orderBy: “1 , size: 10) ， 就 可 以 了 。 


作为 固定 可 视 化 分 析 模式 的 另 一 种 分 享 办 法 ， 还 可 以 导出 该 visualize object 在 .kibana 索 引 中 的 JSON 记 录 。 这 样 其 他 人 只 需要 原样 再 导入 到 自己 的 .kibana 索 引 即 可 : 


# curl -XGET 127.0.0.1:9200/.kibana/visualization/php-slow-stack-pie/_source 
{"title": "php-slow-stack-pie", "visState":"{\"aggs\": [{\"id\":\"1\", \"params\":{},\"schema\":\"metric\", \"type\":\"count\"}, {\"id\":\"2\", \"params\": {\"field\":\"slow.1\", \"orde 


上 面 记录 中 可 以 看 到 ， 这 个 visualize 还 关联 了 一 个 savedSearch， 那 么 同样 ， 再 从 .kibana 索 引 里 把 这 个 内 容 也 导出 : 


# curl -XGET 127.0.0.1:9200/.kibana/search/php-fpm-slowlog/_source 
{"title": "php-fpm-slowlog", "description" :"","hits":0, "columns": ["_source"],"sort"™: ["@timestamp", "desc"], "version":1, "kibanaSavedObject-Meta": {"searchSourceJSON":"{\n_ \"index\" 


这 个 内 容 看 起 来 有 点 怪 怪 的 ， 其 实 把 searchSourceJSON 字 符 串 复制 出 来 ， 在 终端 下 贴 到 echo-ne 命 令 后 面 ， 回 车 即 可 看 到 其 实 是 这 样 : 


"index": "[logstash-mweibo-]YYYY.MM.DD", 
"highlight": { 

“pre tags": [ 

"@kibana-highlighted-field@" 
l; 
"post tags": [ 
"@/kibana-highlighted-field@" 

] 


’ 
"fields"; { 
"an: {} 
} 
}, 
"filter": f 
{ 
"meta": { 
"index": "[logstash-mweibo-]YYYY.MM.DD", 
"negate": false, 
"key": " type", 


"value": "php-fpm-slow", 
"disabled": false 
I, 


"query": { 
"match": { 
"type": { 
"query": "php-fpm-slow", 
"type": "phrase" 
} 
$ 
} 
} 
l; 
"query": { 
"query_string": { 
"query": "*", 


"analyze wildcard": true 


178.2 ”分 图 统计 


上 一 节 我 们 展示 了 sub aggs 在 饼 图 上 的 效果 。 不 过 这 多 层 agg 其 实用 的 是 同一 类 数据 。 如 果 在 聚合 中 ， 要 加 上 一 些 完全 不 同 纬度 的 数据 ， 还 是 在 单一 的 


上 一 节 用 到 的 PHP 慢 函数 堆栈 。 我 们 可 以 根据 机 房 做 一 下 拆 分 。 由 于 代码 部 署 等 主动 变更 都 是 有 灰 度 部 署 的 ， 一 旦 发 现 某 机 房 有 异常 ， 就 可 以 及 时 处 理 了 。 


图 片上 继续 累加 就 不 是 很 直观 了 。 比 如 说 ， 还 是 


同样 还 是 新 建 sub aggs， 但 是 在 开始 ， 选 择 split chart 而 不 是 split slice， 如 图 17-22 所 示 。 


[iogstash-mweibo-JYYYY.MM.DD 


Data Options 


Count 


Top 5 idc BEEJ 
Top 10 siow.1 ED 
Top 10 siow.2 ED 
Top 10 siow.3 IEE 
Top 10 siow4 EGG 


V Add sub-buckets 


17-22 分 图 配置 


从 URL 里 可 以 看 到 ， 分 图 的 aggs 是 schema: split， 而 饼 图 分 片 的 aggs 是 schema: segment: 


http: //k4domain:5601/#/visualize/edit/php-slow-stack-pie?_g=(refreshI-nterval: (display:Off, pause: !f, section:0,value:0), time: (from:now-12h,mode: quick, to:now) )& a=(filters:!(),1i 


17.8.3 ”TopN 的 时 序 趋势 图 


TopN 的 时 序 趋势 图 是 将 ELK stack 用 于 监控 场景 最 常用 的 手段 。 乃 至 在 Kibana 3 时 代 ， 开 发 者 都 通过 在 Query 框 上 额外 定义 TopN 输 入 的 方式 提供 了 这 个 特性 。 不 过 在 Kibana 5 中 ， 
次 分 桶 原理 ，TopN 时 序 趋势 图 又 有 了 新 的 特点 


为 sub aggs 的 依 


Kibana 3 中 ， 请 求实 质 是 先 单 独 发 起 一 次 termFacet 请 求 得 到 topN， 然 后 再 发 起 带 有 facet-Filter 的 dateHistogramFacet， 分 别 请 求 每 个 term 的 时 序 。 那 么 同样 的 原理 ， 迁 移 到 Kibana 5 中 ， 就 是 先 利 
用 一 次 termAgg 分 桶 后 ， 再 每 个 桶 内 做 dateHistogramAgg 了 。 对 应 的 Kibana 5 地 址 为 : 


http: //k4domain:5601/#/visualize/edit/php-fpm-slowlog-histogram?_g=(refre-shInterval: (display:Off, pause: !f, section:0, value:0), time: (from:now-12h, mode: quick, to:now) ) & a=(filters 


效果 如 图 17-23 所 示 。 


可 以 看 到 图 上 就 是 3 根 线 ， 分 别 代表 top3 的 host 的 时 序 。 


一 般 来 说 ， 这 样 都 是 够 用 的 。 不 过 如 果 经 常 有 host 变 动 的 时 人 息 ， 在 这 么 大 的 一 个 时 间 范 围 内 ， 求 一 次 总 的 opN， 可 能 就 淹没 了 一 些 瞬 间 的 变动 了 。 所 以 ， 在 Kibana 5 上 ， 我 们 可 以 把 sub aggs 的 顺序 
颠倒 一 下 。 先 按 dateHistogramAgg 分 桶 ， 再 在 每 个 时 间 桶 内 ， 做 termAgg。 对 应 的 Kibana 5 地 址 为 : 


http://k4domain:5601/#/visualize/edit/php-fpm-slowlog-histogram? g=(refre-shIinterval: (display:Off,pause: !f, section:0,value:0),time: (from:now-12h,mode:quick, to:now) ) &_a=(filters 


% This visualization is linked to a saved search: php-fpm-slowlog 


[logstash-mweibo-]YYYY.MM.DD 


Data Options 


Gtimestamp per 10 minutes 3 
P Add sub-buckets 


图 17-23 top host 示 例 


可 以 对 比 一 下 前 一 条 url， 其 中 就 是 把 id 为 2 和 3 的 两 段 做 了 对 调 ， 而 最 终 效果 如 图 17-24 所 示 。 


% This visualization is linked to a saved search: php-fpm-slowlog 


Tlogstash-mweibo-]YYYY.MM.DD 
Logend © 

® web049.mweibo.yf.sin... 
© wob025.mweibo.yf.sin... 
@ web190.mwelbo yhgs.. 
© web006.mwelbo.xd.si... 
© web011.mweibo ytsin 
@ web017.mwelbo yhgs. 
@ wed108.mweibo yt sin... 
© web126.mwelbo yt sin... 
@ wob006.mweibo.tc.sin... 
@ web017.mwelbo.tc.sin.. 
© wed068.mweibo.yhg.s.. 
® web027.mwelbo.te.sin... 
© web040.mwelbo.yhgs... 
© wob198,mwelbo yt sin... 
® web033.mwelbo yt sin.. 
@ web091.mweibo.yhg.s... 
® web051.mwelbo.yf sin... 
@ webO19.mwelbo yt sin.. 
© web039.mwelbo yf sin.. 
© web036.mweibo.yfsin... 
@ web171.mwelbo yhg.s... 
© web034.mwelbo yt sin... 
® web038.mwelbo yt.sin... 
© web016.mweibotc sin 
@ web132.mwelbo.te.sin.. 
® web012.mwelbo yt sin.. 
® wed005.mweibo.tc.sin... 
© web007.mweibo.te.sin.. 
@ web014.mweibo.yt.sin... 
@ web240.mwelbo yt sin... 
© web093.mweibo yf.sin... 
@ wob124.mweibo yt sin... 
® web028.mwalbo yhgs. 
© web022.mwelbo.xd.si... 
® wob010.mweibo.yf.sin... 
@ web041.mweibo.yt.sin... 
@ web062.mwelboyhgs .. 


14:00 15:00 
Gtimestamp per 10 minutes 


a 


17-24 top date 示 例 


差距 多 么 明显 ! 


17.8.4 ”响应 时 间 的 百 分 占 比 趋势 图 


时 序 图 除了 上 节 展 示 的 最 基本 的 计数 以 外 ， 还 可 以 在 Y 轴 上 使 用 其 他 数值 统计 结果 。 最 常见 的 ， 比 如 访问 日 志 的 平均 响应 时 间 。 但 是 平均 值 在 数学 统计 中 ， 是 一 个 非常 不 可 信 的 数据 ， 稍 微 几 个 远离 置信 
区 间 的 数值 就 可 以 严重 影响 到 平均 值 。 所 以 ， 在 评价 数值 的 总 体 分 布 情况 时 ， 更 推荐 采用 四 分 位 数 ， 也 就 是 25%、50%、75%。 在 可 视 化 方面 ， 一 般 采 用 箱 体 图 方式 。 


Kibana 5 没有 箱 体 图 的 可 视 化 方式 。 不 过 采用 线 图 ， 我 们 一 样 可 以 做 到 类 似 的 效果 。 


在 上 一 章 的 时 序数 据 基 础 上 ， 改 变 Y 轴 数据 源 ， 选 择 Percentile 方 式 ， 然 后 输入 具体 的 四 分 位 。 运 行 泻 染 即 可 ， 如 图 17-25 所 示 。 


对 比 新 的 URL， 可 以 发 现 变化 的 就 是 id 为 1 的 片段 。 变 成 了 (id: ‘1’ , params: (field: connect ms, percents: ! (50, 75, 95, 99) ) , schema: metric, type: percentiles) : 


http://k4domain:5601/#/visualize/create?type=area&savedSearchId=curldebug& g=()& a=(filters:!(),linked:!t,query: (query_string: (query:'*')),vis: (aggs:! ((id:'1', params: (field:cor. 


% This visualization is linked to a saved search: curidebug 


Tlogstash-mweibo-]YYYY.MM.DD 


417-25 Bae 


实践 表明 ， 在 访问 日 志 数 据 上 ,平均 数 一 般 相近 于 75% 的 四 分 位 数 。 所 以 ， 为 了 更 细 化 性 能 情况 ， 我 们 可 以 改 用 诸如 90%、95% 这 样 的 百 分 位 。 


此 外 ， 从 Kibana 5.1 开 始 ， 新 加 入 了 Percentile_rank 聚 合 支持 。 可 以 在 Y 轴 数据 源 里 选择 这 种 聚合 ， 输 入 具体 的 响应 时 间 ， 比 如 2s。 则 可 视 化 数据 变 成 2s 内 完成 的 响应 数 占 总 数 的 百分比 的 趋势 图 。 


17.8.5 ”响应 时 间 的 概率 分 布 在 不 同时 段 的 相似 度 对 比 


前 面 已 经 用 百 分 位 的 时 序 ， 展 示 如 何 更 准确 的 监控 时 序数 据 的 波动 。 那 么 ， 还 能 不 能 更 进一步 呢 ? 在 制定 SLA 的 时 候 ， 制 定 报警 阅 值 的 时 候 ， 怎 么 才能 确定 当前 服务 的 拐点 ? 除了 压 测 以 外 ， 我 们 还 可 
以 拿 线 上 服务 的 实际 数据 计算 一 下 概率 分 布 。Kibana 5 对 此 提供 了 直接 的 支持 ， 我 们 可 以 以 数值 而 非 时 间作 为 X 轴 数据 。 


那么 进一步 ， 我 们 怎么 区 分 不 同 产品 在 同一 时 间 ， 或 者 相同 产品 在 不 同时 间 ， 性 能 上 有 无 渐变 到 质变 的 可 能 ? 这里， 我 们 可 以 采用 grouped 方 式 ， 来 排列 filter aggs 的 结果 ， 如 图 17-26 所 示 。 


我 们 可 以 看 出 来 ， 虽 然 两 个 时 间 段 ， 响 应 时 间 是 有 一 定 差距 的 ， 但 是 是 整体 性 的 抬升 ， 没 有 明显 的 异 变 。 


当然 ， 如 果 觉 得 目测 不 靠 谱 的 ， 可 以 把 两 组 数值 拿 下 来 ， 通 过 PDL、scipy、matlab、R 等 工具 做 具体 的 差异 显著 性 检测 。 这 就 属于 后 续 的 二 次 开发 了 。 


E Spit Bars 
Aggregation 
Í Fitters 


Query 1 
timestamp:["now-7m* TO “now"] x] 
J xx 


Query 2 
timestamp:["now-15m* TO "now-7m"] | x | 


«Advanced 


¥ Add Sub Aggregation 


v5_request_ms 
图 17-26 ”分 组 对 比 


filter 中 ， 可 以 写 任意 的 query string 语 法 。 不 限于 本 例 中 的 时 间 段 : 


http: //k4domain:5601/#/visualize/create?type=histogram&indexPattern=%5Blogsta-sh- mweibo-nginx-%5DYYYY.MM.DD&_g=() &_a=(filters:! (),linked:!f,query: (query_string: (analyze_wildce 


17.9 ”Kibana 报 表 的 快速 实现 


ELK stack 本 身 作 为 一 个 实时 数据 检索 聚合 的 系统 ， 在 定期 报表 方面 ， 是 有 一 定 劣势 的 。 因 为 基本 上 不 可 能 把 源 数据 长 期 保存 在 Elasticsearch 集 群 中 。 即 便 保 存 了 ， 为 了 一 些 已 经 成 形 的 数据 ， 再 全 面 查 
询 一 次 过 久 的 冷 数据 ， 也 是 有 额外 消耗 的 。 那 么 ， 对 这 种 报表 数据 的 需求 ， 如 何 处 理 ” 其 实 很 简单 ， 把 整个 Kibana 页 面 截图 下 来 即 可 。 


FireFox 有 插件 用 来 截取 全 网 页 图 。 不 过 如 果 作为 定期 的 工作 ， 这 么 搞 还 是 比较 麻烦 的 ， 需 要 脚本 化 下 来 。 这 时 候 就 可 以 用 上 phantomjs 软 件 了 。phantomjs 是 一 个 基于 webkit 引 擎 做 的 js 脚本 库 。 可 以 
通过 js 程序 操作 webkit 浏 览 器 引擎 ， 实 现 各 种 浏览 器 功能 。 


phantomjs 在 Linux 平 台 上 没有 二 进 制 分 发 包 ， 所 以 必须 源 代 码 编译 : 


# yum -y install gcc gcc-c++ make flex bison gperf ruby \ 
openssl-devel freetype-devel fontconfig-devel libicu-devel sqlite-devel \ 
libpng-devel libjpeg-devel 

# git clone git://github.com/ariya/phantomjs.git 

# cd phantomjs 

# git checkout 2.0 

# ./build.sh 


想 要 给 Kibana 页 面 截图 ， 几 行 代码 就 够 了 。capture-kibana.js 示 例如 下 : 


var page = require ('webpage') .create(); 
var address = 'http://kibana.example.com/#/dashboard/elasticsearch/h5 view'; 
var output = 'kibana.png'; j 
page.viewportSize = { width: 1366, height: 600 }; 
page.open (address, function (status) { 
if (status !== 'success') { 
console.log ('Unable to load the address!'); 
phantom.exit (); 
} else { 
window.setTimeout (function () { 
page. render (output) ; 
phantom.exit (); 
}, 30000); 
} 
he 


IR] 


然后 运行 phantomjs capture-kibana.js 命 令 ， 就 能 得 到 截 


生成 的 kibana.png 图 片 了 。 


这 里 有 两 个 要 点 : 


1) 要 设置 viewportSize 里 的 宽度 ， 否 则 效果 会 变 成 单个 panel 依 次 往 下 排列 。 


2) 要 设置 setTimeout， 否 则 在 获取 完 index.html 后 就 直接 返回 了 ， 只 能 看 到 一 个 大 白板 。 用 phantomjs 截 取 angularjs 这 类 单 页 MVC 框 架 应 用 时 一 定 要 设置 这 个 。 


Phantomjs 截 图 这 个 方法 ， 不 单 适用 于 Kibana 5， 在 Kibana 3 上 同样 适用 。 


17.10 timelion 应 用 


Elasticsearch 2.0 开 始 提供 了 一 个 狐 新 的 pipeline aggregation 特 性 ， 但 是 Kibana 并 没有 立刻 跟 进 这 方面 的 意思 ， 相 反 ，Elastic 公 司 推出 了 另 一 个 实验 室 产 品 : timelion。 最 后 在 5.0 版 中 ，timelion 成 
为 Kibana 5 默认 分 发 的 一 个 插件 。 


timelion 的 用 法 在 官网 里 已 经 有 介绍 。 尤 其 是 最 近 两 篇 介绍 如 何 用 timelion 实 现 异 常 告警 的 文章 ， 更 是 从 ES 的 pipeline aggregation 细 节 和 场景 一 路 讲 到 timelion 具 体操 作 ， 我 这 里 几乎 没有 再 重新 讲 一 
饥 timelion 操 作 入 门 的 必要 了 。 不 过 ， 官 方 却 一 直 没 有 列 出 来 timelion 支 持 的 请 求 语法 的 文档 ， 而 是 在 页 面 上 通过 点 击 图 标的 方式 下 拉 帮 助 。 如 图 17-27 所 示 。 


© This month 


.es(").bars(), .es(mac) 


Deduplication 0% / Query Time 29ms / Processing Time 1ms 


-hideQ) Hide the series by default 

label) Change the label of the series. Use %s reference the existing label 
legend) Set the position and style of the legend on the plot 

lines) Show the seriesList as lines 


-movingaverage() Calculate the moving average over a given window. Nice for smoothing noisey series 


-movingstd() Calculate the moving standard deviation over a given window. Uses naive two-pass algorithm. Rounding errors may become more noticeable with very long series, or series with very large numbers. 


multiply) Multiply the values of one or more series in a seriesList to each position, in each series, of the input seriesList 
-points() Show the series as points 
.precision0 number of digits to round the decimal portion of the value to 


.quandl0 Pull data from quandl.com using the quand! code 


1.0 
Bllogstash 


17-27 timelion 帮 助 提示 


timelion 页 面 设 计 上 ， 更 接近 Kibana 3 而 不 是 Kibana 5。 比 如 panel 分 布 是 通过 设置 几 行 几 列 的 数目 来 固化 的 ; query 框 是 唯一 的 ， 要 修改 哪个 panel 的 query， 鼠 标点 选 一 下 panel，query 就 自动 切换 
成 这 个 panel 的 了 。 


为 了 方便 大 家 在 上 手 之 前 了 解 timelion 能 做 到 什么 ， 今 天 特意 把 timelion 的 请 求 语法 所 支持 的 函数 分 为 几 类 ， 罗 列 如 下 。 
可 视 化 效果 类 : 
-bars ($width) : 用 柱状 图 展示 数组 。 


- lines ($width, $fill, $show, $steps) : 用 折线 图 展示 数组 。 


points () : 用 散 点 图 展示 数组 。 


-color ( “#c6c6c6” ) : 改变 颜色 。 

-hide () : 隐藏 该 数组 。 

+ label ( “change from%s” ) : 标签 。 

- legend ($position, $column) : 图 例 位 置 。 

yaxis (Syaxis_number, $min, Smax, $position) : 设置 Y 轴 属性 ，.yaxis (2) 表示 第 二 根 Y 轴 。 
数据 运算 类 : 

-abs () : 对 整个 数组 元 素 求 绝对 值 。 

+ precision ($number) : 浮 点 数 精度 。 

+ .testcast ($count, $alpha, $beta, $gamma) : holt-winters 预 测 。 

-.cusum ($base) : 数组 元 素 之 和 ， 再 加 上 $base。 

- derivative () : 对 数组 求 导 数 。 

“ divide ($divisor) : 数组 元 素 除法 。 

+ multiply ($multiplier) : 数组 元 素 乘法 。 

+ subtract ($term) : 数组 元 素 减 法 。 

“ .sum ($term) : 数组 元 素 加 法 。 

-add () : 同 .sum () o 

-plus () : 同 .sum () o 

“ first () : 返回 第 一 个 元 素 。 

+ .movingaverage ($window) : 用 指定 的 窗口 大 小 计算 移动 平均 值 。 

.mvavg () : .movingaverage () 的 简写 。 

+ .movingstd ($window) : 用 指定 的 窗口 大 小 计算 移动 标准 差 。 

.mvstd () : .movingstd () 的 简写 。 

数据 源 设 定 类 : 

+ .elasticsearch () : 从 ES 读 取 数 据 。 

“es (q= “querystring” , metric= “cardinality: uid” , index= “logstash-*” , offset= “-1d” ) : .clasticsearch () 的 简写 。 
+ .graphite (metric= “path.to.*.data” , offset= “-1d” ) : 从 graphite 读 取 数 据 。 
- quandl () : 从 duandlcom 读 取 quandl 码 。 

+ .worldbank_indicators () : 从 worldbank.org 读 取 国 家 数据 。 


+ whi () : .worldbank_indicators () 的 简写 。 


- worldbank () : 从 worldbank.org 读 取 数 据 。 
.wb () : .worldbanck () 的 简写 。 


以 上 所 有 函数 ， 都 在 series functions 目 录 下 实现 ， 每 个 js 文件 实现 一 个 TimelionFunction 功 能 。 


17.11 console 应 用 


5.0 版 本 以 后 ， 原 先 Elasticsearch 的 site plugin 都 被 废弃 掉 。 其 中 一 些 插件 作者 选择 了 作为 独立 的 单 页 应 用 继续 存在 ， 比 如 前 面 介绍 的 cerebro。 而 官方 插件 则 都 迁移 成 为 了 Kibana 的 App 扩 展 。 其 中 ， 
原先 归属 在 Marvel 中 的 sense 揪 件 ， 被 改名 为 Kibana console 应 用 ， 在 5.0 版 本 中 默认 随 Kibana 分 发 。 


console MAAR RER cisense/ LY, W0E17-28, HREAN Elasticsearch RART, REAR, 


Server localhost:9200 m 5 


# Delete all data in the “website” index 
DELETE /website 


# Create a document with ID 123 
PUT /website/blog/123 


"title": "My first blog entry", 
"text": "Just trying this out... 
"date": "2014/01/01" 

} 


# Search! 
GET website/_search 
{ 
"query": { 
"match": { 
"title": "blog" 
} 


} 
} 


# Delete all data in the ‘website’ index 
DELETE /website 


# Create a document with ID 123 

PUT /website/blog/123 

{ 
"title": "My first blog entry", 
"text": "Just trying this out... 
"date": "2014/01/01" 

} 


35 # Search! 
GET website/_search 
37~ {í 


图 17-28 consolet] 


第 18 章 ”Kibana 5 源码 解析 


Kibana 5 采用 Angularjs+ Nodejs 框 架 编写 。 其 中 Nodejjs 主 要 提供 两 部 分 功能 ， 给 Elasticsearch 做 搜索 请 求 转发 代理 ， 以 及 作为 auth、ssl|、setting 等 操作 的 服务 器 后 端 。Kibana 5.0 版 本 在 这 些 基础 
构成 方面 没有 太 大 变化 。 


本 章 假 设 你 已 经 对 Angular 有 一 定 程度 了 解 一 一 至 少 是 阅读 并 理解 了 Kibana 3 源码 剖析 章节 的 内 容 ， 所 以 不 会 再 解释 有 关 Angular 的 route、controller、directive、service、factory 等 概念 。 


如 果 打 算 迁 移 kibana 3 的 CAS 验 证 功能 到 Kibana 4 或 5 版 本 ， 那 么 可 以 稍微 了 解 一 下 HapiJS 框 架 的 认证 扩展 ， 相 信 可 以 很 快 修改 成 功 。 本 章 主要 还 是 集中 在 前 端 Kibana 页 面 功 能 的 实现 上 ， 主 要 包括 以 
下 内 容 : 


- Kibana 索 引 的 数据 结构 。 相 比 Kibana3，Kibana 5 将 更 多 本 身 的 数据 存 到 了 Elas-ticseatch 索 引 里 ， 本 节 介绍 .kibana 索 引 里 的 各 种 数据 ， 对 该 索引 的 导入 导出 操作 ， 也 是 Kibana5 仪 表盘 分 享 时 的 一 个 必 备 办 


“主页 入 口 。 以 主页 为 入 口 介绍 Kibana 5 的 页 面 设计 。 

“ discover 解 析 。 解 析 Discover 页 上 使 用 的 关键 接口 和 通用 对 象 。 

“visualize 解 析 。 介 绍 Visualize 页 上 使 用 的 关键 接口 ， 以 及 Visualize 页 是 如 何 融 合 d3.js 图 表 绘 制 技术 的 。 

“ dashboard 解析。 介绍 Dashboard 页 的 实现 要 点 。 

“setting 解 析 。 介 绍 Setting 页 的 实现 ， 以 及 如 何 修改 Setting 页 代码 ， 开 启 对 scripted field 的 语言 选择 编辑 功能 。 
参考 阅读 


在 Elastic{ON} 大 会 上 ， 也 有 专门 针对 Kibana 5 源码 和 二 次 开发 入 门 的 演讲 。 请 参阅 : https://speakerdeck.com/elastic/the-contributors-guide-to-the-kibana-galaxy。 


另外 ， 可 以 看 看 专业 的 前 端 工程 师 怎 么 理解 Kibana 5 代码 的 : http://www.debuggerstep through.com/2015/04/reviewing-kibana-4s-client-side-code.html o 


18.1 Kibana 索 引 的 数据 结构 


Kibana 5 和 Kibana 3 不 同 ，Kibana 5 的 所 有 配置 项 ， 都 能 且 只 能 保存 到 Elasticsearch 索 引 中 。 在 我 们 尚 不 了 解 源码 之 前 ， 可 以 先 通过 ESs 索 引 数据 ， 了 解 一 下 其 中 的 配置 数据 种 类 ， 在 稍 后 源码 阅读 中 ， 
相互 参照。 


Kibana 5 的 配置 索引 叫 .kibana， 注 意 前 面 多 出 的 这 个 点 ， 这 意味 着 你 在 Linux 服 务 器 上 ， 默 认 是 看 不 到 这 个 索引 的 实际 目录 的 ， 也 算是 一 种 对 重要 数据 的 保护 方式 吧 。 


.kibana 索 引 的 结构 比 Kibana 3 的 kibana-int 索 引 要 复杂 得 多 ， 索 引 下 包括 了 以 下 几 种 类 型 : 
“config id 为 Kibana 5 的 version。 内 容 主要 是 defaultIndex， 设 置 默认 的 index_pattern。 
+ search_id 为 discover 上 保存 的 搜索 名 称 。 内 容 主要 是 title、column、sort 和 kibana-SavedObjectMeta。kibanaSavedObjectMeta 内 是 一 个 searchSourceJSON， 保存 搜索 json 的 字符 囊 。 


+ visualization_id 为 visualize 上 保存 的 可 视 化 名 称 。 内 容 包 括 title、savedSearchId、kibana-SavedObjectMeta 和 visState。 其 中 visState 里 保存 了 聚合 json 的 字符 串 。 如 果 绑 定 了 已 保存 的 搜索 ， 那 么 把 其 在 search 
类 型 里 的 _id 存 在 savedSearchId 字 段 里 ， 如 果 是 从 新 搜索 开始 的 ， 那 么 把 搜索 json 的 字符 串 直 接 存 在 自己 的 kibanaSaved-ObjectMeta 的 searchSourceJSON 里 。 


+ dashboard_id 为 dashboard 上 保存 的 仪表 盘 名 称 。 内 容 包括 title、version、timeFrom，timeTo、timeRestore、uiStateJSON、optionsJSON、hits、refreshInterva、panelsJSON 和 kibanaSavedObjectMeta。 其 中 


PanelsJSON 是 一 个 数组 ， 每 个 元 素 是 一 个 panel 的 属性 定义 。 定 义 包 括 有 : 
‘type: 具体 加 载 的 app 类 型 ， 就 默认 来 说 ， 肯 定 就 是 search 或 者 visualization 之 一 。 
id: 具体 加 载 的 app 的 保存 id。 也 就 是 上 面 说 过 的 ， 它 们 在 各 自 类 型 下 的 _id 内 容 。 
“size_x: banel 的 又 轴 长 度 。Kibana 5 采用 gridster 库 做 挂件 的 动态 划分 ， 默 认为 3。 
.size_y: panel 的 Y 轴 长 度 ， 默 认为 2。 
‘col: panel 的 左边 侧 起 始 位 置 。Kibana 5 指定 col 最 大 为 12。 每 行 第 一 个 panel 的 col 就 是 1， 假 如 它 的 size_x 是 4， 那 么 第 二 个 panel 的 col 就 是 5。 
< tow: panel 位 于 第 几 行 。gridster 默 认 的 row 最 大 为 15。 


+ index-pattern_id 为 setting 中 设置 的 index battern。 内 容 主要 是 匹配 该 模式 的 所 有 索引 的 全 部 字段 与 字段 映射 。 如 果 是 基于 时 间 的 索引 模式 ， 还 会 有 主 时 间 字 段 timeFieldName 和 时 间 间 隔 intervalName 两 个 字 


- field 数 组 中 ， 每 个 元 素 是 一 个 字段 的 情况 ， 包 括 字段 的 typpe、name、indexed、analyzed、doc_values、count 和 scripted searchable、aggregationable、format、popularity 这 些 状态 。 
- 如 果 scripted 为 trtue， 那 么 这 个 元 素 就 是 通过 Kibana 5 页 面 添加 的 脚本 化 字段 ， 那 么 这 条 字段 记录 还 会 额外 多 几 个 内 容 : 
+ script: 记录 实际 sctipt 语 句 。 


“ lang: 在 Elasticsearch 的 datanode 上 采用 什么 lang-plugin 运 行 。 默 认 是 painless。 即 Elasticsearch 5 开始 默认 启用 的 脚本 引擎 。 可 以 在 management 页 面 上 切换 成 Lucene expression 等 集群 中 其 他 可 用 的 脚本 语 


uh 


“ timelion_sheet: @4&# timelion_chart_height, timelion_columns, timelion_interval, timelion_other_interval, timelion_rows, timelion_sheetFfK. i349 Xtimelion app 的 页 面 布局 、 行 列 长 帘 ， 以 及 每 个 


图 表 的 统计 语句 等 。 


本 书 第 8 章 介绍 packetbeat 时 提 到 的 自 带 dashboard 导 入 脚本 ， 其 实 就 是 通过 curl 命 令 ， 上 传 这 些 type 的 JSON 数 据 到 指定 Elasticsearch 集 群 的 .kibana 索 引 里 。 


18.2 主页 入 日 


我 们 先 从 启动 Kibana 的 命令 行程 序 入 手 ， 可 以 看 到 这 是 一 个 shell 肢 本。 最终 执行 的 是 node src/cli serve 命 令 。 然 后 跟着 就 可 以 找到 src/cli/serve 程 序 ， 其 中 最 重要 的 是 加 载 了 
src/server/kbn_server.js。 继 续 打开 ， 可 以 看 到 它 先后 加 载 了 config、http、logging、plugin 和 uiExports。 毫 无 疑问 ， 其 中 重点 是 http 和 uiExports 部 分 。 


http/indexjs 中 ， 初 始 化 了 Hapi.Server 对 象 ， 加 载 hapi plugin， 并 声明 了 主要 的 route。 包 括 静 态 文件 、 模 板 文件 、 短 地 址 跳 转 和 主页 默认 跳 转 到 /app/kibana。 目 前 来 说 Kibana 在 服务 器 端 主动 做 的 
事情 还 比较 少 。 在 我 们 不 基于 Hapi 框 架 做 二 次 开发 的 情况 下 ， 不 用 过 于 关注 这 期 间 Kibana 做 了 什么 。 


下 面 进入 src/ui/ 目 录 继续 。 


src/ui/index.js 中 完成 了 更 细节 的 各 类 app 的 加 载 和 路 由 分 配 : 


const uiExports = kbnServer.uiExports = new UiExports ({ 
urlBasePath: config.get ('server.basePath') 

he 

for (let plugin of kbnServer.plugins) { 
uiExports.consumePlugin (plugin) ; 


const bundles = kbnServer.bundles = new UiBundleCollection(bundlerEnv, config.get ('optimize.bundleFilter')); 
for (let app of uiExports.getAllApps()) { 
bundles. addApp (app) ; 
} 
server. route ({ 
path: '/app/{id}', 
method: 'GET', 
handler: function (req, reply) { 
const id = req.params.id; 
const app = uiExports.apps.byId[id]; 
if (!app) return reply(Boom.notFound('Unknown app ' + id)); 


if (konServer.status.isGreen()) { 
return reply.renderApp (app) ; 
} else { 


return reply.renderStatusPage () ; 
} 
} 
he 


可 以 看 到 这 里 把 所 有 的 app 都 打包 进 了 bundle。 这 也 是 很 多 初次 接触 Kibana 二 次 开发 的 新 手 很 容易 被 绊 倒 的 一 点 一 一 改 了 一 行 代码 怎么 没 生效 ? 因为 服务 是 优先 使 用 bundle 内 容 的 ， 而 不 会 每 次 都 进 
到 各 源码 目录 执行 。 


如 果 在 频繁 修改 代码 的 阶段 ， 每 次 都 等 bundle 确 实 太 累 了 ， 可 以 看 到 上 面 代码 段 里 有 一 个 config.get ( ‘optimize.bundleFilter’ ) 。 是 的 ， 其 实 Kibana 支 持 在 config 中 设 定 具体 的 optimize 行 为 ， 但 
是 官方 文档 上 并 没有 介绍 。 最 完整 的 配置 项 见 src/server/config/schema.js。 前 面 说 过 ， 这 是 在 启动 Kbn_server 的 时 候 最 先 加 载 的 。 


在 schema 中 可 以 看 到 一 个 很 可 爱 的 配置 ; 


optimize: _joi2['default'] .object ({ 
enabled: _joi2['default'] .boolean() ['default'] (true), 
B 


所 以 你 只 要 在 config/kibana.yml 中 加 上 这 么 一 行 配置 就 好 了 : optimize.enabled: false, 


18.2.1 Kibana App 


从 Kibana 4.5 版 开始 ，Kibana 框 架 和 Kibana App 做 了 一 个 剥离 。 现 在 ， 我 们 进 到 Kibana App 里 看 看 。 路 径 在 src/core_plugins/kibana。 我 们 可 以 看 到 路 径 中 有 如 下 文件 : 


common/ 
index.js 
package.json 
public/ 
server/ 


这 是 一 个 很 显然 的 普通 Nodejs 模 块 的 结构 。 我 们 可 以 看 看 作为 模块 描述 的 packagejson 里 写 了 什么 内 容 : 


"name": "kibana", 
"version": "kibana" 


非常 有 趣 的 version。 这 个 写法 的 意思 是 本 插件 的 版 本 号 和 Kibana 框 架 的 版 本 号 保持 一 致 。 事 实 上 所 有 core_plugins 的 版 本 号 都 写 的 是 kibana。 


然后 indexjs 中 ， 调 用 uiExports 完 成 了 app 注 册 。 也 这 是 之 后 我 们 自己 开发 新 的 Kibana 应 用 时 必须 做 的 。 我 们 下 面 摘 主 要 段落 分 别 看 一 下 : 


module.exports = function (kibana) { 
var kbnBaseUrl = '/app/kibana'; 
return new kibana.Plugin({ 
id: 'kibana', 
config: function config(Joi) { 
return Joi.object ({ 
enabled: Joi.boolean() ['default'] (true), 
defaultAppId: Joi.string() ['default'] ('discover'), 
index: Joi.string() ['default'] ('.kibana') 
}) ['default'] (); 
tr 
uiExports: { 
app: { 
id: 'kibana', 
title: 'Kibana', 
listed: false, 
description: 'the kibana you know and love', 
main: 'plugins/kibana/kibana', 


这 是 最 基础 的 部 分 ， 注 册 成 为 一 个 kibana.Plugin，id 叫 什么 ，config 配 置 有 什么 ， 标 题 叫 什么 ， 入 口 文件 是 哪个 ， 具 体 是 什么 类 型 的 uiExports， 一 般 常见 的 选择 有 : app、visType。 这 两 者 也 是 做 
Kibana 二 次 开发 最 容易 入 手 的 地 方 : 


uses: ['visTypes', 'spyModes', 'fieldFormats', 'navbarExtensions', 'managementSections', 'devTools', 'docViews'], 
injectVars: function injectVars (server, options) {http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/...} 
ty 


uses 和 injectVars 是 可 选 的 方式 ， 可 以 在 src/ui/ui_app.js 中 看 到 起 作用 。 分 别 是 指明 下 列 模 块 已 经 加 载 过 ， 以 后 就 不 用 再 加 载 了 ; 以 及 声明 需要 注入 浏览 器 的 JSON 变 量 : 


links: [{ 
id: 'kibana:discover', 
title: 'Discover', 
order: -1003, 
url: kbnBaseUrl + '#/discover', 
description: 'interactively explore your data', 
icon: 'plugins/kibana/assets/discover.svg' 
tr { 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 
H, 
tr 


这 里 是 一 个 特殊 的 地 方 ， 一 般 来 说 其 他 应 用 不 会 用 到 links 类 型 的 uiExports。 因 为 Kibana 应 用 本 身 不 用 单一 的 左 侧 边栏 切换 ， 而 是 需要 把 自己 内 部 的 Discover、Visualize、Dashboard、Management 
功能 放 上 去 。 所 以 定义 里 ， 把 自己 的 listed 给 false 了 ， 而 把 这 具体 的 四 项 通过 links 的 方式 ， 添 加 到 侧 边栏 上 。links 具 体 可 配置 的 属性 ， 见 src/uiyui_nav _linkjs。 这 里 就 不 细 讲 了 。 


preInit: _asyncToGenerator (function* (server) { 
yield mkdirp (server.config () .get ('path.data')); 
He 


prelnit 也 是 一 个 可 选 属性 ， 如 果 有 需要 创建 目录 之 类 的 要 预先 准备 的 操作 ， 可 以 在 这 步 完 成 。 


init: function init(server, options) { 


// uuid 

(0, _serverLibManage_uuid2['default']) (server); 

// routes 

(0, _serverRoutesApilngest2['default']) (server); 
(0, _serverRoutesApiSearch2['default']) (server); 
(0, “serverRoutesApiSettings2 ['default']) (server); 
(0, _serverRoutesApiScripts2['default']) (server); 


server.expose('systemApi', systemApi) ; 


init 是 最 后 一 步 。 我 们 看 到 Kibana 应 用 的 最 后 一 步 是 继续 加 载 了 一 些 服务 器 端的 route 设 置 。 比 如 这 个 _serverRoutesApiScripts2， 具 体 代码 是 在 


src/core_plugins/kibana/server/routes/api/scripts/register languages.js 里 : 


server. route ({ 
path: '/api/kibana/scripts/languages', 
method: 'GET', 
handler: function handler(request, reply) { 
var callWithRequest = server.plugins.elasticsearch.callWithRequest; 
return callWithRequest (request, 'cluster.getSettings', { 
include_defaults: true, 
filter_path: '**.script.engine.*.inline' 
}) .then (function (esResponse) { 
var langs = lodash2['default'] .get (esResponse, 'defaults.script.engine', {}); 
var inlineLangs = _lodash2['default'].pick(langs, function (lang) { 
return lang.inline == 'true'; 


he 


var supportedLangs = _lodash2['default'].omit (inlineLangs, 
return lodash2['default'] . keys (supportedLangs) ; 
}) . then (reply) ['catch'] (function (error) { 
reply((0, _libHandle es error2['default']) (error) ); 
he 
} 
he 


我 在 上 一 版 的 Kibana 4 源码 解析 中 曾经 讲 过 的 一 个 二 次 开发 场景 一 一 切换 脚本 引 警 支持 。 在 Elasticsearch 5.0}, /_cluster/settingst 


"mustache') ; 


里 提供 了 具体 的 可 上 


引 警 细节， 诸如 一 个 个 


script.engine.painless.inline 的 列表 。 这 样 ， 就 不 必 像 之 前 那样 明确 知道 自己 可 以 用 什么 ， 然 后 硬 改 代码 来 支持 了 ; 而 是 可 以 通过 这 个 接口 数据 ， 拿 到 集群 实际 支持 什么 引擎 ， 当 前 默认 是 什么 引擎 等 设 


置 ， 直 接 在 Kibana 中 使 


。 上面 这 段 代码 ， 就 是 提供 了 这 个 数据 。 


注意 其 中 排除 了 mustache，, 


DH 


为 它 只 能 做 模板 泻 染 ， 没 法 做 字段 值 计算 。 


好 了 。 应 


注册 完成 ， 我 们 看 到 了 main 入 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 
import 


kibanaLogoUrl from 'ui/images/kibana.svg'; 

"ui/autoload/all'; 

"plugins/kibana/discover/index'; 

"plugins/kibana/visualize/index'; 

"plugins/kibana/dashboard/index'; 

'plugins/kibana/management/index'; 

"plugins/kibana/doc'; 

"plugins/kibana/dev_tools'; 

"ui/vislib'; 5 

'ui/agg_response'; 

'ui/agg_types'; 

'ui/timepicker'; 

import Notifier from 'ui/notify/notifier'; 

import 'leaflet'; 

routes.enable (); 

routes 

otherwise ({ 
redirectTo: 

he 

chrome 

.setRootController('kibana', function ($scope, courier, config) { 
$scope.$on('application.load', function () { 

courier.start (); 


he 


*/${chrome.getInjected('kbnDefaultAppId', 'discover') }* 


， 那 么 去 看 看 main 入 口 的 内 容 吧 。 打 开 src/core_plugins/kibana/public/kibanajs。 可 见 主 要 如 下 : 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


通过 这 一 串 import 基 本 上 就 可 以 看 到 Kibana 中 最 主要 的 各 项 功能 了 。 


而 对 内 部 比较 


的 则 是 这 个 ui/autoload/all。 这 里 面 其 实 是 加 载 了 Kibana 自 定义 的 各 种 Angular module、directive 和 filter。 像 我 们 熟悉 的 markdown、moment、auto select, json_input, 


paginate、file_upload 等 都 在 这 里 面 加 载 。 这 些 都 是 网 页 开发 的 通 


设置 routes 的 具体 操作 在 加 载 的 src/ui/public/routes/route_manager.js 文 件 里 ， 其 中 会 调 
index pattern 的 时 候 跳 转 URL 到 whenMissingRedirectTo 页 面 : 


工具 。 这 里 就 不 再 介绍 细节 了 ， 有 兴趣 的 读者 可 以 在 src/ui/public/ 下 找到 对 应 文件 。 


sr/ui/public/index_patterns/route_setup/load_default.js 提 供 的 addSetupWork 方 法 ， 在 未 设置 default 


uiRoutes 


.addSetupWork (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16099/0EBPS/Text/...) 


.afterWork ( 

// success 

null, 

// failure 

function (err, kbnUrl) { 
let hasDefault = ! (err instanceof NoDefaultIndexPattern) ; 
if (hasDefault || !whenMissingRedirectTo) throw err; // rethrow 
kbnUrl. change (whenMissingRedirectTo) ; 
if (!defaultRequiredToasts) defaultRequiredToasts = []; 
else defaultRequiredToasts.push (notify.error (err) ) 7 


而 这 个 whenMissingRedirectTo 页 面 是 在 Kibana 应 


的 源码 里 写 死 的 ， 见 src/core_plugins/kibana/public/management/index.js: 


uiRoutes 

.when ('/management', { 
template: landingTemplate 

he 

require ('ui/index_patterns/route_setup/load_default') ({ 
whenMissingRedirectTo: '/management/kibana/index' 


he 


在 原先 的 版 本 中 ，routes 里 面 还 会 检查 Elasticsearch 的 版 本 号 ， 在 5.0 版 里 ， 这 件 事 情 从 Kibana plugin 改 到 Elasticsearch plugin 里 完成 了 。 


kibana.js 的 最 后 ， 


18.2.2 Couriers 


控制 器 则 会 监听 application.load 事 件 ， 在 页 面 加 载 完成 的 时 候 触发 courier.start () 函数 。 


components/courier/courier.js 中 定义 了 Courier 类 。Courier 是 一 个 非常 重要 的 东西 ， 可 以 简单 理解 为 kibana 跟 ES 之 间 的 一 个 object mapper。 简 要 的 说 ，Courier 类 包括 以 下 方法 : 


function Courier() { 
var self = this; 
self.start = function () { 
searchLooper.start (); 
docLooper.start (); 
return this; 
i 
self.fetch = function () { 
fetch. fetchQueued (searchStrategy) .then (function () { 
searchLooper.restart (); 
he 
hi 
self.started = function () { 
return searchLooper.started (); 
ti 
self.stop = function () { 
searchLooper.stop () ; 
return this; 
hi 
self.createSource 
switch (type) 
case 


= function (type) { 
{ 
"doc': 
return new DocSource (); 
"search': 
return new SearchSource () 7 


case 


} 
hi 


self.close = function () { 
searchLooper.stop () 7 
docLooper.stop () 7 
. invoke (requestQueue, 'abort'); 
If (requestQueue.length) { 


} 
li 


throw new Error ('Aborting all pending requests failed.'); 


从 类 的 方法 中 可 以 看 出 ， 其 


就 是 5 个 属性 的 控制 ， 下 面 分 别 介绍 。 


1.DocSource 和 SearchSource 


继承 自 components/couriewdata_source/_abstract,js， 调 用 components/courierdata_source/data_source/_doc send to_es,js 完 成 跟 ES 数据 的 交互 ， 上 


来 做 savedObject 和 index_pattern 的 读 


es [method] (params) 
.then (function (resp) { 
if (resp.status === 409) throw new errors.VersionConflict (resp) ; 
doc._storeVersion(resp._version) ; 
doc.id(resp. id); 
var docFetchProm; 
if (method !== 'index') { 
docFetchProm = doc. fetch (); 


} else { 


// we already know what the response will be 
docFetchProm = Promise. resolve ({ 


); 


id: resp._id, 

“index: params.index, 
source: body, 

“type: params.type, 
version: doc. getVersion(), 
found: true ` 


这 个 es 调 


了 services/es.js 中 定义 的 service， 里 面 内 容 超级 简单 ， 就 是 加 载 官 方 的 elasticsearch.js 库 ， 然 后 初始 化 一 个 最 简 的 esFactory 客 户 端 ， 包 括 超时 都 设 成 了 0， 把 这 个 控制 交 给 server 端 : 


import 'elasticsearch-browser'; 

import _ from 'lodash'; 

import uiModules from 'ui/modules'; 

let es; // share the client amongst all apps 


uiModules 


-get('kibana', ['elasticsearch', 'kibana/config']) 
-Service('es', function (esFactory, esUrl, $q, esApiVersion, esRequestTimeout) { 


if 
es 


H 
he 


(es) return es; 
= esFactory ({ 


host: esUrl, 

log: 'info', 

requestTimeout: esRequestTimeout, 
apiVersion: esApiVersion, 

plugins: [function (Client, config) { 


_.- Class (CustomAngularConnector) . inherits (config.connectionClass) ; 


function CustomAngularConnector (host, config) { 
CustomAngularConnector.Super.call(this, host, config); 
{ 


this.request = _.wrap(this.request, function (request, params, cb) { 
if (String (params.method) .toUpperCase() === 'GET') { 
params.query = _- defaults ({ _: Date.now() }, params.query) ; 


} 
return request.call (this, params, cb); 
he 
} 


config.connectionClass = CustomAngularConnector; 


return es; 


he 


2.searchLooper#l]JdocLooper 


分 别 给 Looper.start 方 法 传递 searchStrategy 和 docStrategy， 对 应 ES 的 /msearch 和 /_mget 请 求 。searchLooper 的 实现 如 下 : 


import FetchProvider from 'http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/../fetch'; 
import SearchStrategyProvider from 'http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/../fetch/strategy/search'; 
import RequestQueueProvider from 'http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/../_request_queue'; 
import LooperProvider from './ looper'; 
export default function SearchLooperService (Private, Promise, Notifier, $rootScope) { 
let fetch = Private (FetchProvider) ; 
let searchStrategy = Private (SearchStrategyProvider) ; 
let requestQueue = Private (RequestQueueProvider) ; 
let Looper = Private (LooperProvider) ; 
let searchLooper = new Looper(null, function () { 
SrootScope. $broadcast ('courier:searchRefresh') ; 
return fetch.these ( 


) 7 
be 


requestQueue.get Inactive (searchStrategy) 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


这 里 的 关键 方法 是 fetch.these () , WHui/courier/fetch/_fetch_thesejs, H4 


Promise.map (executable, function (req) { 
return Promise.try(req.getFetchParams, void 0, req) 
.then (function (fetchParams) { 
return (req.fetchParams = fetchParams) ; 


he 
}) 


.then (function (reqsFetchParams) { 
return strategy.reqsFetchParamsToBody (reqsFetchParams); 


}) 


.then (function (body) { 
(esPromise = 
body: body 


return 


1)); 
BÐ 


es[strategy.clientMethod] ({ 


.then (function (clientResp) { 


freturn 


}) 


strategy.getResponses (clientResp); 


.then (respond) 


的 ui/courier/fetch/_call_clientjs 有 如 下 一 段 代码 : 


a 


在 这 段 代 码 中 ， 我 们 可 以 看 到 strategy.reqsFetchParamsToBody () , strategy.getResponses () 和 strategy.clientMethod， 正 是 之 前 searchLooper 和 docLooper 传 递 的 对 象 属性 。 而 最 终 发 送 请 


同样 用 的 是 前 面 解释 过 的 es 这 个 service。 


此 外 ，Courier 还 提供 了 自动 刷新 的 控制 功能 : 


self.fetchInterval = function (ms) { 
searchLooper.ms (ms) 7 
return this; 

hi 


SrootScope. $watchCollection('timefilter.refreshInterval', function () { 


var refreshValue = _.get($rootScope, 'timefilter.refreshInterval.value'); 
var refreshPause = ~.get ($rootScope, 'timefilter.refreshInterval.pause') ; 
if (_.isNumber(refreshValue) && !refreshPause) { 

self. fetchInterval (refreshValue) ; 
} else { 


self.fetchInterval (0); 
} 
he 


18.2.3 ”路 径 记 忆 功 能 的 实现 
在 src/ui/public/chrome/api/appsjs 中 ， 我 们 可 以 看 到 路 径 记 忆 功 能 是 怎么 实现 的 : 


module.exports = function (chrome, internals) { 
internals.appUrlStore = internals.appUrlStore || window.sessionStorage; 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16099/0EBPS/Text/... 
chrome.getLastUrlFor = function (appId) { a 
return internals.appUrlStore.getItem(*appLastUrl:${appId}*); 
ti 
chrome.setLastUrlFor = function (appId, url) { 
internals.appUrlStore.setItem(*appLastUrl:${appId}*, url); 
ti 


这 里 使 用 的 sessionStorage 是 HTML5 自 带 的 新 特性 ， 这 样 ， 每 次 标签 页 切换 时 ， 都 可 以 把 $location.url| 保 存 下 来 。 至 于 整个 Kibana 页 面 上 标签 页 的 初始 状态 ， 则 通过 registry/apps.js 获 取 。 


18.3 ”Discover 解 析 


前 面 已 经 说 到 ，kibana.js 中 依次 加 载 了 各 主要 功能 模块 的 入 口 。 比 如 搜索 页 是 src/core_plugins/kibana/public/discover/index.js。 通 过 这 个 文件 路 径 就 可 以 猜 到 ， 有 关 搜 索 页 的 功能 ， 代 码 应 该 都 在 
src/core_plugins/kibana/public/discover/ 里 了 。 这 个 目录 下 的 文件 有 : 


+ _hit_sort_fn.js 
* components/ 

+ controllers/ 

* directives/ 

+ index.html 

+ index.js 

+ partials / 

+ saved_searches/ 


+ styles/ 


这 也 是 一 个 比较 标准 的 Angular 模 块 的 目录 结构 了 。 一 眼 就 能 知道 ，controller、directive 等 等 分 别 应 该 进 哪 里 去 看 。 当 然 首先 第 一 步 还 是 看 indexjjs: 


import 'plugins/kibana/discover/saved_searches/saved_searches'; 

import 'plugins/kibana/discover/directives/no_results'; 

import 'plugins/kibana/discover/directives/timechart'; 

import 'ui/collapsible_sidebar'; 

import 'plugins/kibana/discover/components/field_chooser/field_chooser'; 

import 'plugins/kibana/discover/controllers/discover'; T 

import 'plugins/kibana/discover/styles/main.less'; 

import 'ui/doc_table/components/table_row'; 

import savedObjectRegistry from 'ui/saved_objects/saved_object_registry'; 

savedObjectRegistry. register (require ('plugins/kibana/discover/saved_searches/saved_search_register')); 


已 存 搜索 、 事 件数 趋势 图 


Mm 


件 列表 、 字 段 列表 ， 各 自 载 入 了 。 下 面 可 以 看 一 下 这 几 个 功能 点 的 实现 。 


1.plugins/kibana/discover/saved_searches/saved_searches.js 


1) 定义 savedSearches 这 个 angular service， 用 来 操作 kibana_index 索 引 里 search 这 个 类 型 下 的 数据 。 


2) 加 载 了 saved_searches/_saved_searches.js 提 供 的 savedSearch 这 个 angular factory， 这 里 定义 了 一 个 搜索 (search) 在 kibana_index 里 的 数据 结构 ， 包 括 title、description、hits、column、 
sort、version 等 字段 (这 部 分 内 容 ， 可 以 直接 通过 读 取 Elasticsearch 中 的 索引 内 容 看 到 ， 比 阅读 代码 更 直接 。19.1 节 刚刚 介绍 过 kibana_index 中 的 数据 结构 ) ， 是 不 是 有 点 眼熟 ” 没 错 ， 这 个 savedSearch 
就 是 继承 了 上 一 节 我 们 介绍 的 那个 courier 的 savedObject: 


H 


module .factory ('SavedSearch', function (courier) { 
_.class (SavedSearch) . inherits (courier.SavedObject) ; 
function SavedSearch(id) { 


http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 


3) 还 加 载 并 注册 了 plugins/settings/saved_object_registryjs， 表 示 可 以 在 settings 里 修改 这 里 的 savedSearches 对 象 。 
2.plugins/kibana/discover/directives/timechart.js 


1) 加 载 components/vislib/index.js。 


2) 提供 discoverTimechart 这 个 angular directive， 监 听 “data” 并 调用 vislib.Chart 对 象 绘图 


vislib.Chart 是 整个 Kibana 5 可 视 化 的 实现 部 分 ，19.4 节 会 更 详细 地 讲解 。 


3.plugins/kibana/discover/components/field_chooser/field_chooser.js 


1) 提供 discFieldChooser 这 个 angular directive, Hip: 


监听 “fields” 并 fieldCalculator 计 算 常 用 字段 排行 ;这 有 段 排序 计算 ， 极 具 链 式 风格 ， 又 展现 了 lodash.js 关 于 数组 的 各 类 方法 ， 摘 录 如 下 : 


_.chain (fields) 
.each (function (field) { 
field.displayOrder = _.indexOf(columns, field.name) + 1; 
field.display = !!field.displayOrder; 
field.rowCount = fieldCounts[field.name]; 
B 
.sortBy (function (field) { 
return (field.count || 0) * -1; 
}) 
.groupBy (function (field) { 
if (field.display) return 'selected'; 
return field.count > 0 ? 'popular' : 'unpopular'; 
B 
.tap (function (groups) { 


groups.selected = _.sortBy(groups.selected || [], 'displayOrder') ; 
groups.popular = groups.popular || []; 
groups.unpopular = groups.unpopular || []; 


var extras = groups.popular.splice (config.get ('fields:popularLimit')); 
groups.unpopular = extras.concat (groups.unpopular) ; 

3) 

.each (function (group, name) { 
$scope[name + 'Fields'] = _.sortBy(group, name === 'selected' ? 'display' : 'name'); 


H 


.commit (); 


监听 “data” 并 调用 $scope.details () 方法 ; 提供 gscope.runAgg () 方法 。 方 法 中 ， 根 据 字段 的 类 型 不 同 ， 分 别 可 能 使 用 date_histogram/geohash_grid/terms 聚 合 函 数 ， 创 建 可 视 化 模型 ， 然 后 
带 着 当前 页 这 些 设 定 一 一 前 面 说 过 ， 各 app 之 间 通 过 globalState 共 享 状态 ， 也 就 是 URL 中 的 ? a= (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/...) 。 各 app 会 通过 rison.decode ($location.search () . a) 和 rison.encode ($location.search () . a) 设置 和 读 取 一 一 跳 
转 到 “/visualize/create” 页 面 ， 相 当 于 是 这 三 个 常用 聚合 的 快速 可 视 化 操作 。 


默认 的 create 页 的 rison 如 下 : 


return '#/visualize/create?' + $.param(_.assign($location.search(), { 
indexPattern: S$scope.state. index, ~ 
type: type, 
a: rison.encode ({ 
~ filters: $scope.state.filters || []， 


query: $scope.state.query || undefined, 
vis: { 
type: type, 
aggs: [ 
agg, 
{schema: 'metric', type: 'count', 'id': '2"} 


之 前 18.8 节 的 url 示 例 中 ， 读 者 如 果 注 意 的 话 ， 会 发 现 id 是 从 2 开始 的 ， 原 因 即 在 此 。 


2) 加 载 plugins/kibana/discover/components/field_chooser/lib/field_calculator.js， 提 供 field Calculator.getFieldValueCounts () 方法 ， 在 $scope.details () 中 读 取 被 点 击 的 字段 值 的 情况 。 


3) bN#plugins/kibana/discover/components/field_chooser/discover fieldjs， 提 供 discover Field 这 个 angular directive， 用 于 弹出 浮 层 展示 零 时 的 visualize (调用 上 一 条 提供 的 
$scope.details () 方法 ) ， 同 时 给 被 点 击 的 字段 加 常用 度 ; 加 载 plugins/kibana/discover/components/field_chooser/lib/detail_views/string.html 网 页 ， 用 于 浮 层 效 果 。 网 页 中 对 indexed 或 scripted 
类 型 的 字段 ， 可 以 调用 前 面 提 到 的 VizLocation () 方法 。 


= 


import detailsHtml from 'plugins/kibana/discover/components/field chooser/lib/detail_views/string.html'; 
$scope.toggleDetails = function (field, recompute) { 
if (_.isUndefined(field.details) || recompute) { 
// This is inherited from fieldChooser 
$scope.details (field, recompute) ; 
detailScope.$destroy (); 
detailScope = $scope.$new (); 
detailScope.warnings = getWarnings (field) ; 
detailsElem = $(detailsHtml) ; 
Scompile (detailsElem) (detailScope) ; 
Selem. append (detailsElem) .addClass('active'); 
} else { 
delete field.details; 
detailsElem. remove () 7 
Selem. removeClass ('active'); 


i 


4) 加 载 并 泻 染 plugins/kibana/discover/components/field_chooser/field_chooser.html 网 页 。 网 页 中 使 用 了 上 一 条 提供 的 discover-field 标 签 。 


4.plugins/kibana/discover/controllers/discover.js 


加 载 了 诸多 js， 主 要 做 了 : 


1) 为 “/discover/: id” 提 供 route 并 加 载 plugins/discover/index.html 网 页 。 


2) 提供 discover 这 个 angular controller。 


3) 加 载 ui/vis/visjs 并 在 setupVisualization 函 数 中 绘制 histogram 图 。Visualize 中 还 会 经 常用 到 这 里 的 vis.aggs: 


var visStateAggs = [ 


type: 'count', 
schema: 'metric! 


type: 'date_histogram', 

schema: 'segment', 

params: { 
field: $scope.opts.timefield, 
interval: $state.interval, 
min_doc_count: 0 


} 
di 
Sscope.vis = new Vis ($scope.indexPattern, { 
type: 'histogram', 
params: { 
addLegend: false, 


addTimeMarker: true 
hr 
listeners: { 
click: function (e) { 
timefilter.time.from = moment (e.point.x); 
timefilter.time.to = moment (e.point.x + e.data.ordered.interval) ; 
timefilter.time.mode = 'absolute'; 
hy 
brush: brushEvent. 
tr 
aggs: visStateAggs 
he 
Sscope.searchSource.aggs (function () { 
Sscope.vis.requesting(); 
return $scope.vis.aggs.toDs1 (); 


he 


184 Visualize 解 析 


indexjs 中 ， 首 要 当然 是 注册 自己 。 此 外 ， 还 加 载 两 部 分 功能 : pluginsKibanay/visualize/editoreditorjs 和 plugins/kibanay/visualize/wizard/wizard,js。 然 后 定义 了 一 个 route， 默 认 跳 转 /visualize 
到 /visualize/step/1。 


1.wizard 页 面 


wizard 页 面 也 就 是 我 们 在 Visualize 标 签 页 上 创建 可 视 化 时 前 两 步 选 择 可 视 化 类 型 和 绑 定 搜索 id 的 页 面 。 在 wizard.js 中 提供 两 个 route 和 对 应 的 controller。 分 别 是 /visualize/step/1 对 应 
VisualizeWizardStep1，/visualize/step/2 对 应 VisualizeWizardStep2。 这 两 个 的 最 终结 果 都 是 跳 转 到 /visualize/create? type=* 下 。 


2.editor 页 面 


editor 页 面 是 最 后 的 实际 可 视 化 编辑 展示 页 面 。editor.js 中 也 定义 了 两 个 route， 分 别 是 /visualize/create 和 /visualize/edit/: id。 然 后 还 定义 了 一 个 controller， 叫 作 VisEditor， 对 应 的 HTML 是 
中 用 到 两 个 directive， 分 别 是 visualize 和 vis-editor-sidebar。 


plugins/visualize/editor/editor.html, 


其 中 create 是 先 加 载 registry/vis types， 并 检查 $route.current.params.type 是 否 存在 ， 然 后 调用 savedVisualizations.get ($route.current.params) 方法 ; 而 edit 是 直接 调 有 


savedVisualizations.get ($route.current.params.id) 。 


网 
器 


下 面 ， 开 始 介绍 Kibana 5 最 重要 的 可 视 化 部 分 ， 看 看 ES 响应 数据 ， 是 如 何 变 成 漂亮 的 d3.js 绘 


18.4.1 vis types 实 现 


T 


实际 注册 了 vis_ types 的 地 方 包括 : 
lugins/table_vis/index.js 


lugins/metric_vis/index.js 


lugins /markdown_vis/index.js 


lugins /kbn_vislib_vis_types/index.js 


前 三 个 是 表单 ， 最 后 一 个 是 可 视 化 图 。 内 容 如 下 : 


import visTypes from 'ui/registry/vis_types'; 

visTypes. register (require ('plugins/kbn_vislib vis_types/histogram')) ; 
visTypes. register (require ('plugins/kbn vislib vis types/line')); 
visTypes. register (require ('plugins/kbn_vislib vis_types/pie')); 
visTypes. register (require ('plugins/kbn vislib vis types/area')); 
visTypes. register (require ('plugins/kbn_vislib vis_types/tile_map')); 


以 histogram 为 例 解释 一 下 visTypes。 下 面 的 实现 较 长 ， 我 们 拆 成 三 部 分 : 


第 一 部 分 ， 加 载 并 生成 VislibVisType 对 象 : 


import VislibVisTypeVislibVisTypeProvider from 'ui/vislib_vis_type/vislib_vis_type'; 
import VisSchemasProvider from 'ui/vis/schemas'; 
import histogramTemplate from 'plugins/kbn_vislib_vis_types/editors/histogram.html'; 
export default function HistogramVisType (Private) { 
const VislibVisType = Private (VislibVisTypeVislibVisTypeProvider) ; 
const Schemas = Private (VisSchemasProvider) ; 
description: 'The goto chart for oh-so-many needs. Great for time and 
non-time data. Stacked or grouped, exact numbers or percentages. If 
you are not sure which chart your need, you could do worse than to 
start here.', 


第 二 部 分 ，histogram 可 视 化 所 接受 的 参数 默认 值 以 及 对 应 的 参数 编辑 页 


E 


params: { 
defaults: { 

shareYAxis: true, 
addTooltip: true, 
addLegend: true, 
scale: 'linear', 
mode: 'stacked', 
times: [], 
addTimeMarker: false, 
defaultYExtents: false, 
setYExtents: false, 


yAxis: {} 
ty 
scales: ['linear', 'log', 'square root'], 
modes: ['stacked', 'percentage', 'grouped'], 


editor: require ('text!plugins/kbn_vislib_vis_types/editors/histogram.htm1') 
] 


三 部 分 ，histogram 可 视 化 能 接受 的 Schema。 一 般 来 说 ，metric 数 值 聚合 肯定 是 Y 轴 ; bucket 聚 合 肯 定 是 X 轴 ; 而 在 此 基础 上 ，Kibana 5 还 可 以 让 bucket 有 不 同 效果 ， 也 就 是 通过 设置 Schema 里 的 
segment (默认 ) 、group 和 split。 根 据 效果 不 同 ， 这 里 是 各 有 增 减 的 ， 比 如 饼 图 就 不 会 有 group， 如 下 所 示 : 


schemas: new Schemas ([ 
{ 
group: 'metrics', 
name: 'metric', 
title: 'Y-Axis', 
min: 1, 
aggFilter: '!std_dev', 
defaults: [ 
{ schema: 'metric', type: 'count' } 
] 


group: 'buckets', 

name: 'segment', 

title: 'X-Axis', 

min: 0, 

max: 1, 

aggFilter: '!geohash_grid' 


group: 'buckets', 

name: 'group', 

title: ‘Split Bars', 

min: 0, 

max: 1, 

aggFilter: '!geohash_grid!' 


group: 'buckets', 

name: 'split', 

title: 'Split Chart’, 

min: 0, 

max: 1, 

aggFilter: '!geohash_grid' 


这 里 使 用 的 VislibVisType 类 继承 自 components/vis/VisType.js，VisType.js 内 容 如 下 : 


import VisSchemasProvider from 'ui/vis/schemas'; 
export default function VisTypeFactory (Private) { 
let VisTypeSchemas = Private (VisSchemasProvider) ; 
function VisType(opts) { 
opts = opts || {}; 
this.name = opts.name; 
this.title = opts.title; 
this.responseConverter = opts.responseConverter; 
this.hierarchicalData = opts.hierarchicalData || false; 
this.icon = opts.icon; 
this.description = opts.description; 


this.schemas = opts.schemas || new VisTypeSchemas () ; 
this.params = opts.params || {}; 
this.requiresSearch = opts.requiresSearch == null ? true : opts.requiresSearch; 


// 默认 为 true 
return VisType; 
hi 


基本 跟 上 面 histogram 的 示例 一 致 ， 注 意 这 里 面 的 responseConverter 和 hierarchicalData， 是 给 不 同 的 visType 做 相应 数据 转换 的 。 在 实际 的 VislibVisType 中 ， 就 有 下 面 一 段 : 


if (this.responseConverter == null) { 
this.responseConverter = pointSeries; 


可 见 默 认 情 况 下 ，Kibana 是 尝试 把 聚合 结果 转换 成 点 线 图 数组 的 。 


VislibVisType 中 另 一 部 分 ， 则 是 扩展 了 一 个 自己 的 方法 createRenderbot， 用 来 生成 Vislib-Renderbot 对 象 。 这 个 类 的 实现 在 ui/vislib_vis_type/VislibRenderbot.js， 其 中 最 关键 的 几 行 是 : 


import VislibVisTypeBuildChartDataProvider from 'ui/vislib vis type/build chart data'; 
module.exports = function VislibRenderbotFactory (Private, Sinjector) { ` E 
let buildChartData = Private (VislibVisTypeBuildChartDataProvider) ; 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 
self.vislibVis = new vislib.Vis(self.$el[0], self.vislibParams) ; T 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 
VislibRenderbot .prototype.buildChartData = buildChartData; > 
VislibRenderbot .prototype.render = function (esResponse) { 
this.chartData = this.buildChartData (esResponse) ; 
this.vislibVis. render (this.chartData) ; 
i 


也 就 是 说 ， 分 为 两 部 分 ，buildChartData 方 法 和 vislib.Vis 对 象 。 


先 来 看 buildChartData 的 实现 : 


import AggResponseIndexProvider from 'ui/agg response/index'; 
return function (esResponse) { 
var vis = this.vis; 
if (vis.isHierarchical()) { 
return aggResponse.hierarchical (vis, esResponse) ; 
} 
var converted = convertTableGroup (vis, tableGroup) ; 
return converted; 
ti 
function convertTable(vis, table) { 
return vis.type.responseConverter (vis, table); 


} 


又 看 到 responseConverter 和 hierarchical 这 两 个 熟悉 的 字眼 了 ， 不 过 这 回 是 另 一 个 对 象 的 方法 ， 那 么 我 们 继续 跟踪 下 去 ， 看 看 这 个 aggResponse 类 是 怎么 回 


import AggResponseHierarchicalBuildHierarchicalDataProvider from 'ui/agg_response/hierarchical/build hierarchical data'; 
import AggResponsePointSeriesPointSeriesProvider from 'ui/agg_response/point series/point_series'; ` ~ 
import AggResponseTabifyTabifyProvider from 'ui/agg_response/tabify/tabify'; ey 
import AggResponseGeoJsonGeoJsonProvider from 'ui/agg_response/geo_json/geo_json'; 
export default function NormalizeChartDataFactory (Private) { T ~ 
return { 
hierarchical: Private (AggResponseHierarchicalBuildHierarchicalDataProvider) , 
pointSeries: Private (AggResponsePointSeriesPointSeriesProvider) , 
tabify: Private (AggResponseTabifyTabifyProvider) , 
geoJson: Private (AggResponseGeoJsonGeoJsonProvider) 
hi 
ie 


然后 我 们 看 vislib.Vis 对 象 ， 定 义 在 ui/vislib/visjs 里 。 同 时 我 们 注意 到 ， 定 义 vislib 这 个 服务 的 ui/visliby/index.js 里 ， 还 定义 了 一 个 服务 ， 叫 d3， 没 错 ， 我 们 离 真 正 的 绘图 越 来 越 近 了 。 


visjs 中 加 载 了 ui/vislib/lib/handler/handler types 和 ui/vislib/visualizations/vis_ types: 


import VislibLibHandlerHandlerTypesProvider from 'ui/vislib/lib/handler/handler_types'; 
import VislibVisualizationsVisTypesProvider from 'ui/vislib/visualizations/vis_types'; 


其 中 : 


chartTypes 用 来 定义 图 : 


class Vis extends Events { 
constructor ($el, config) { 
super (arguments) ; 


[ 


handlerTypes 用 来 绘制 


render(data, uiState) { 
var chartType = this. _attr.type; 
this.data = data; 
this.handler = handlerTypes[chartType] (this) || handlerTypes.column (this) ; 
this._runWithoutResizeChecker ('render') ; 
ti 
_runWithoutResizeChecker (method) { 
this. resizeChecker.stopSchedule () ; 
this._runOnHandler (method) ; 
this.resizeChecker.saveSize(); 
this. resizeChecker.saveDirty (false); 
this. resizeChecker.continueSchedule () ; 
ti 
runOnHandler = function (method) { 
this. handler [method] () 7 


i 


ui/vislib/lib/handler/handler_types 中 ， 根 据 不 同 的 vis_types， 分 别 返 回 不 同 的 处 理 对 象 ， 主 要 出 自 ui/vislib/lib/handler/types/point_series、ui/vislib/lib/handler/types/pie 和 
ui/vislib/lib/handler/types/tile map。 比 如 histogram 就 是 pointSeries.column。 可 以 看 到 point_series.js 中 ， 对 column 是 加 上 了 zeroFill: true 和 expandLastBucket: true 参 数 调用 create () 方法 。 而 
create () 方法 中 的 new Handler () 传递 的 显然 就 是 给 d3.js 的 绘图 参数 。 而 Handler 具 体 初始 化 和 泻 染 过 程 ， 则 在 被 加 载 的 ui/vislib/lib/handler/handler.js 中 。Handler.prototype.render 中 有 如 下 一 段 
代码 : 


const selection = d3.select (this.el); 
const chartSelection = selectionhttp: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/..selectAll('.chart"); 
chartSelection.each(function (chartData) { 
const chart = new self.ChartClass(self, this, chartData) ; 
self.vis.activeEvents().forEach(function (event) { 
self.enable (event, chart); 
he 


binder.on(chart.events, 'rendered', () => { 
loadedCount++; 


if (loadedCount === chartSelection.length) { 
charts [0].events.emit ('renderComplete') ; 
} 
DD); 
charts.push (chart) ; 
chart.render (); 


he 


这 里 面 的 ChartClass () 就 是 在 vislib.js 中 加 载 了 的 ui/vislib/visualizations/vis_ types。 它 会 根据 不 同 的 vis types， 分 别 返 回 不 同 的 可 视 化 对 象 ， 包 括 : ui/vislib/visualizations/column_chart, 
Ui/vislib/visualizations/pie_chart，ui/vislib/visualizationsy/line_chart、ui/vislib/visualizations/area_chart 和 ui/vislib/visualizationsytile_map。 这 些 对 象 都 有 同一 个 基 类 : 


ui/vislib/visualizations/_chart， 其 中 有 这 人 么 一 段 代码 : 


render() { 
const selection = d3.select (this.chartE]l) ; 
selection.selectAll('*') .remove (); 
selection.call (this.draw()); 


hi 


也 就 是 说 ， 各 个 可 视 化 对 象 只 需要 用 d3.js 或 者 其 他 绘 


库 ， 完 成 自己 的 draw () 函数 ， 就 可 以 了 ! 


[ 


draw 函 数 的 实现 一 般 格 式 如 下 所 示 : 


draw() { 
const self = this; 
const Selem = $(this.chartE]) ; 
const margin = this. attr.margin; 
const elWidth = this. attr.width = $elem.width(); 
const elHeight = this. attr.height = $elem.height (); 
const scaleType = this.handler.yAxis.getScaleType () 7 
const yScale = this.handler.yAxis.yScale; 
const xScale = this.handler.xAxis.xScale; 
const minWidth = 20; 
const minHeight = 20; 
const startLinex = 0; 
const lineStrokeWidth = 1; 
const addTimeMarker = this._attr.addTimeMarker; 
const times = this._attr.times Il (le 
let timeMarker; 
return function (selection) { 
selection.each (function ( 
const el = this; 
const layers = data.series.map(function mapSeries(d) { 
const label = d.label; 
return d.values.map (function mapValues(e, i) { 


data) { 


return { 
_input: e, 
label: label, 


x: self. attr.xValue.call(d.values, e, i), 
y: self. attr. yValue.call (d.values, e, i) 
i 
he 
he 
const width = elWidth - margin.left - margin.right; 
const height = elHeight - margin.top - margin.bottom; 
const div = d3.select (el); 
const svg = div.append('svg') 
„attr ('width', width + margin.left + margin.right) 
-attr('height', height + margin.top + margin.bottom) 
-append('g') 
-attr('transform', 'translate(' + margin.left + ',' + margin.top + ')'); 
// 处 理 data 到 svg 上 
http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 
self.events.emit('rendered', { a 
chart: data 
he 


return svg; 


ti 
ti 


[ 


， 就 是 在 ui/vislib/visualizations/tile_map 里 加 载 的 


当然 ,为 了 代码 逻辑 ， 有 些 比较 复杂 的 绘制 ， 还 是 会 继续 拆 分 成 其 他 文件 的 。 比 如 之 前 已 经 在 v3/bettermap 章 节 介绍 过 的 leaflet 地 


ui/vislib/visualizations/_map.js 完 成 实际 绘制 的 。 


从 数据 到 d3 泻 染 ， 要 经 过 的 主要 流程 就 是 这 样 ， 散 落 在 十 多 个 不 同文 件 中 。 如 果 打 算 自 己 亲 手 扩展 一 个 新 的 可 视 化 方案 的 读者 ， 可 以 具体 参考 我 实现 的 sankey 
: https://github.com/chenryn/kibana4/commit/4e0bcbeb4c8fd94807c3a0b1 df2ac6f56634f9a5, 


[ 


18.4.2 savedVisualizations 实 现 


这 个 类 在 plugins/kibana/visualize/saved_visualizations/saved_visualizations.js 里 定义 。 其 中 分 三 步 ， 加 载 plugins/kibana/visualize/saved visualizations/_saved vis， 注 册 到 


plugins/settings/saved_object_registry， 并 定义 一 个 Angular Service 名 为 savedVisualizations 的 。 


plugins/kibana/visualize/saved_visualizations/_saved_vis 里 定义 了 一 个 叫 作 SavedVis 的 angular factory。 这 个 类 继承 自 courier.SavedObject， 主 要 有 _getLinkedSavedSearch 方 法 调 | 
savedSearches 获 取 在 discover 中 保存 的 search 对 象 ， 以 及 visState 属 性 。 该 属性 保存 了 visualize 定 义 的 JSON 数 据 。 


savedVisualizations 里 主要 就 是 初始 化 SavedVis 对 象 ， 以 及 提供 了 一 个 find 搜 索 方法 。 整 个 实现 和 上 一 节 讲 的 savedSearches 基 本 一 样 ， 就 不 再 讲 了 。 


18.4.3 Visualize 实 现 


这 个 directive 在 ui/visualize/visualize.js 中 定义 ， 稍 后 我 们 还 会 再 次 提 到 这 里 。 而 我 们 可 以 上 拉 看 到 的 请 求 、 响 应 、 表 格 、 性 能 数据 ， 此 时 使 用 的 是 components/visualize/spy/spyjs 中 定义 的 另 一 个 


directive visualizeSpy, 


真正 画图 的 地 方 ， 反 而 没有 用 directive (Kibana 3 里 用 了 ) ， 而 是 定义 了 一 个 普通 的 div， 其 class 为 visualize-chart， 在 visualize.js 中 ， 通 过 getter ( ‘visualize-chart’ ) 方法 获取 div 元 素 : 


function getter(selector) { 
return function () { 
var $sel = $el.find(selector) ; 
if ($sel.size()) return $sel; 
i 
} 


var getVisEl = getter('.visualize-chart'); 


然后 创建 一 个 renderbot: 


$scope.$watch ('vis', prereq (function (vis, oldVis) { 
var $visEl = getVisEl (); 
if (!$visEl) return; 
if (!attr.editableVis) { 
$scope.editableVis = vis; 


} 
if (oldVis) $scope.renderbot = null; 


if (vis) $scope.renderbot = vis.type.createRenderbot (vis, $visEl); 


H); 


最 后 在 searchSource 对 象 发 生变 化 ， 即 有 新 的 搜索 响应 返回 时 ， 完 成 泻 染 。 


S$scope.$watch('searchSource', prereq(function (searchSource) { 
if (!searchSource || attr.esResp) return; 
searchSource.onResults().then (function onResults (resp) { 

if ($scope.searchSource !== searchSource) return; 
Sscope.esResp = resp; 
return searchSource.onResults () .then(onResults) ; 
}) «catch (notify. fatal) ; 
searchSource.onError (notify.error) .catch (notify. fatal) ; 
de 

Sscope.$watch('esResp', prereq(function (resp, prevResp) { 
if (!resp) return; 
$scope.renderbot . render (resp) ; 


Wye 


18.44 VisEditorSidebar 实 现 


这 个 directive 在 plugins/kibana/visualize/editor/sidebar.js 中 定义 。 对 应 的 HTML 是 plugins/kibana/visualize/editor/sidebar.html， 其 中 又 用 到 两 个 directive， 分 别 是 vis-editor-agg-group 和 vis- 
editor-vis-options。 它 们 分 别 由 sidebar.js 加 载 的 plugins/kibana/visualize/editor/agg_group 和 plugins/kibana/visualize/editor/vis_options 提 供 。 然 后 继续 操作 HTML 一 directive， 基 本 上 
plugins/kibana/visualize/editor/ 目 录 下 那 堆 agg*.js 和 agg*.html 都 是 做 这 个 用 的 。 


其 中 比较 有 意思 的 ， 应 该 算是 agg_add.js。 我 们 都 知道 ，Kibana 5 最 大 的 特点 就 是 可 以 层 去 子 聚合 ， 这 个 操作 就 是 在 这 里 完成 的 : 


import VisAggConfigProvider from 'ui/vis/agg_config'; 
import uiModules from 'ui/modules'; - 
import aggAddTemplate from 'plugins/kibana/visualize/editor/agg_add.html'; 
uiModules ~ 
«get ('"kibana') 
.directive ('visEditorAggAdd', function (Private) { 
const AggConfig = Private (VisAggConfigProvider) ; 
return { 
restrict: 'E', 
template: aggAddTemplate, 
controllerAs: 'add', 
controller: function ($scope) { 
const self = this; 
self.form = false; 
self.submit = function (schema) { 
self.form = false; 
const aggConfig = new AggConfig($scope.vis, { 
schema: schema 
he 
aggConfig.brandNew = true; 
$scope.vis.aggs.push (aggConfig) ; 


i 
ti 
be 
另 一 个 比较 重要 的 是 plugins/kibana/visualize/editor/agg_paramsjs。 其 中 加 载 了 ui/agg_types/indexjs， 又 监听 了 “agg.type” 变 量 ， 也 就 是 实现 了 选择 不 同 的 agg_types 时 ， 提 供 不 同 的 
agg_params 选 项 。 比 如 ， 选 择 date_histogram， 字 段 就 只 能 是 @timestamp 这 种 date 类 型 的 字段 。 


ui/agg_types/index.js 中 定义 了 所 有 可 选 agg_types 的 类 。 其 中 metrics 包 括 : count、avg、sum、min、max、std_deviation、cardinality、percentiles 和 percentile_rank， 具 体 实现 分 别 存在 


ui/agg_types/metrics/ 目 录 下 的 同名 .js 文件 里 ; buckets 包 括 : date_histogram, histogram, 
ui/agg_types/buckets/ 目 录 下 的 同名 .js 文件 里 。 


这 些 类 定义 中 ， 都 有 比较 类 似 的 格式 ， 其 中 params 数 组 的 第 一 个 元 素 ， 都 是 类 似 这 样 : 


range、date range、ip_range、terms、filters、significant_terms 和 geo_hash， 具 体 实现 分 别 存在 


name: 'field', 


filterFieldTypes: 'string' 


terms.js 里 还 多 了 一 行 scriptable: true， 而 且 filterFieldTypes 是 数组 。 


name: 'field', 
scriptable: true, 


filterFieldTypes: ['number', 'boolean', 'date', ‘ip', 'string'] 


这 个 filterFieldTypes 在 ui/vis/_agg_config.js 中 ， 通 过 fieldTypeFilter (this.vis.indexPattern.fields, fieldParam.filterFieldTypes) ; 得 到 可 选 字段 列表 。fieldTypeFilter 的 具体 实现 在 


filters/filed typejs 中 。 


18.5 Dashboard 解 析 


plugins/kibana/dashboard/index.js 结 构 跟 Visualize 类 似 ， 注 册 到 registry; 设置 两 个 调 


saved-Dashboards.get () 方法 的 routes， 提 供 一 个 directive。 


savedDashboards 由 plugins/kibana/dashboard/services/saved_dashboard.js 提 供 ， 同 样 也 是 继承 saved-Object， 主 要 内 容 是 panelsJSON 数 组 字段 。 实 现 如 下 : 


module.factory ('SavedDashboard', function (courier) { 
.Class (SavedDashboard) . inherits (courier.SavedObject) ; 
function SavedDashboard(id) { 
courier.SavedObject.call(this, { 
type: SavedDashboard.type, 
mapping: SavedDashboard.mapping, 
searchSource: SavedDashboard.searchsource, 
id: id, 
defaults: { 
title: 'New Dashboard', 
hits: 0, 
description: '', 
panelsJSON: '[] 
optionsJSON: angular.toJson ({ 
darkTheme: config.get ('dashboard:defaultDarkTheme' ) 
He 
uiStateJSON: '{}', 
refreshInterval: undefined 
version: 1, 
timeRestore: false, 
timeTo: undefined, 
timeFrom: undefined 
tr 
clearSavedIndexPattern: true 


he 


注意 ， 这 个 panelsJSON 是 一 个 字符 串 ， 这 跟 之 前 kibana_index 提 到 的 是 一 致 的 。 


在 dashboard-app 中 ， 最 重要 的 功能 是 监听 搜索 框 和 过 滤 条 件 的 变更 ,我 们 可 以 看 到 init 函 数 中 有 下 面 这 段 代 码 : 


function updateQueryOnRootSource() { 
var filters = queryFilter.getFilters (); 
if ($state.query) { 
dash.searchSource.set ('filter', 
query: $state.query 


[{ 


_-union (filters, 


dash.searchSource.set ('filter', filters); 
} 
} 
$scope.$listen (queryFilter, 'update', function () { 
updateQueryOnRootSource () ; 
$state.save (); 
he 


在 index.html 里 ， 实 际 承载 面板 的 ， 是 下 面 这 行 代码 : 


<dashboard-grid></dashboard-grid> 


这 也 是 一 个 angular directive， 通 过 加 载 plugins/kibana/dashboard/directives/grid.js 引 入 。 其 中 添加 面板 相关 的 代码 有 两 部 分 : 


$scope.$watchCollection ('state.panels', function (panels) { 
var currentPanels = gridster.$widgets.toArray().map(function (el) { 
return getPanelFor (el) ; 


const added = _.difference (panels, currentPanels) 7 
if (added.length) added. forEach (addPanel) ; 


这 段 用 来 监听 $state.panels 数 组 ， 一 旦 有 新 增 面板 ， 调 用 addPanel 函 数 。 同 理 也 有 删除 奋 


板 的， 这 里 就 不 重复 介绍 了 。 


而 addPanel 函 数 的 实现 大 致 如 下 : 


var addPanel = function (panel) { 
.defaults (panel, { 
~ size x: 3, 
size_y: 2 

he 

panel.$scope = $scope.$new() ; 

panel.$scope.panel = panel; 

panel.$el = $compile('<li><dashboard-panel></1i>') (panel.$scope) ; 


gridster.add_widget (panel.$el, panel.size_x, panel.size_y, panel.col, panel.row); 


i 


这 里 又 引入 了 一 个 新 的 directive， 叫 作 dashboard-panel。 


dashboard-panel 在 plugins/kibana/dashboard/components/panel/panel.js 中 实现 ， 其 中 使 用 了 plugins/kibana/dashboard/components/panel/panel.html 页 面 。 页 面 最 后 是 这 么 一 段 : 


<visualize ng-switch-when="visualization" 

vis="savedObj.vis" 
search-source="saved0bj .searchSource" 
class="panel-content"> 

</visualize> 

<doc-table ng-switch-when="search" 
search-source="saved0bj .searchSource" 
sorting="panel.sort" 
columns="panel.columns" 
class="panel-content" 
filter="filter"> 

</doc-table> 


这 里 使 用 的 savedObj 对 象 ， 来 自 plugins/kibana/dashboard/components/panellib/load_paneljs 获 取 的 savedSearch 或 者 savedVisualization。 获 得 的 对 象 ， 以 savedVisualization 为 例 : 


define (function (require) { 
return function visualizationLoader (savedVisualizations, Private) { // Inject 
services here 
return function (panel, $scope) { 
return savedVisualizations.get (panel .id) 
.then (function (savedVis) { 
savedVis.vis.listeners.click = filterBarClickHandler ($scope.state) ; 
savedVis.vis.listeners.brush = brushEvent; 
return { 
savedObj: savedVis, 
panel: panel, 
editUrl: savedVisualizations.urlFor (panel .id) 


visualize 和 doc-table 这 两 个 directive 正 是 之 前 在 visualize 和 discover 插 件 解析 里 提 到 过 的 ， 在 components/ 底 下 实现 。 


所 以 ， 在 Dashboard 上 看 到 的 效果 就 跟 在 Visualize 和 Discover 上 看 到 的 效果 一 模 一 样 ， 因 为 用 的 是 同样 的 directive。 


第 19 章 ”Kibana 揪 件 开发 示例 


Kibana 从 4.2 以 后 ， 引 入 了 完善 的 插件 化 机 制 。 目 前 分 为 app、vistype、fieldformatter、spymode 等 多 种 插件 类 型 。 原 先 意义 上 的 Kibana 现 在 已 经 变 成 了 Kibana 揪 件 框架 下 的 一 个 默认 App 类 型 插 
件 。 我 们 在 上 一 章 的 主流 程 源码 解析 里 ， 已 经 看 过 了 官方 的 app、vistype 源 码 。 现 在 ， 可 以 试 试 开发 自己 的 插件 了 。 


此 外 ， 本 章 还 会 先 介绍 Kibana 插 件 的 安装 部 署 ， 以 及 社区 现 有 第 三 方 插件 的 情况 。 


19.1 Kibana 插 件 


本 节 用 以 讲述 Kibana 插 件 的 安装 使 用 。 


19.1.1 ”部 署 命令 


安装 Kibana 插 件 有 两 种 方式 。 


通过 Elastic.co 公 司 的 下 载 地 址 : 


bin/kibana-plugin --install <org>/<package>/<version> 


version 是 可 选项 。 这 种 方式 目前 适用 于 官方 插件 ， 比 如 : 


bin/kibana-plugin -i elasticsearch/marvel/latest 
bin/kibana-plugin -i elastic/timelion 


通过 zip 压 缩 包 : 


支持 本 地 和 远程 HTTP 下 载 两 种 ， 比 如 : 


bin/kibana-plugin --install sense -u file:///tmp/sense-2.0.0-betal.tar.gz 

bin/kibana-plugin -i heatmap -u https://github.com/stormpython/heatmap/archive/master.zip 

bin/kibana-plugin -i kibi_timeline vis -u https://github.com/sirensolutions/kibi_timeline vis/raw/0.1.2/target/kibi_timeline vis-0.1.2.zip 
bin/kibana-plugin -i oauth2 -u https://github.com/trevan/oauth2/releases/download/0.1.0/oauth2-0.1.0.zip T T 


目前 已 知 的 Kibana Plugin 列 表 见 官方 WIKI: https://github.com/elastic/kibana/wiki/Known-Plugins, 
Os Kibana 目 前 版 本 变动 较 大 ， 不 一 定 所 有 插件 都 可 以 成 功 使 用 。 


19.1.2 ”默认 插件 


除了 Kibana 本 身 以 外 ， 其 实 还 有 一 些 其 他 默认 插件 ， 这 些 插件 本 身 在 app switcher 页 面 上 是 隐藏 的 ， 但 是 可 以 通过 ur| 直 接 访问 到 ， 或 者 通过 修改 插件 的 indexjs 配 置 项 让 它 显示 出 来 。 


这 些 隐藏 的 默认 插件 中 ， 最 有 可 能 被 用 到 的 是 Status 插 件 。 


我 们 可 以 通过 http://localhost: 5601/status 地 址 访问 这 个 插件 的 页 面 ， 如 图 19-1 所 示 : 


Status: Green tsathoggua 


Heap Total (MB)1 18,91 OoO Se 
re 


Response Time Avg1 0 37 Response Time Max 1 40 Requests Per Second() 60 
(ms) ~* (ms)~ * ' 


Status Breakdown 
ID Status 

ui settings v Ready 
plugin:kibana@1.0.0 v Ready 
plugin:elasticsearch@1.0.0 v Kibana index ready 
plugin:timelion@5.0.0-alpha4 v Ready 
plugin:console@1.0.0 v Ready 
plugin:kbn_doc_views@1.0.0 v Ready 
plugin:kbn_vislib_vis_types@1.0.0 v Ready 
plugin:markdown_vis@1.0.0 v Ready 
plugin:metric_vis@1.0.0 v Ready 
plugin:spy_modes@1.0.0 v Ready 
plugin:status_page@1.0.0 v Ready 


plugin:table_vis@1.0.0 v Ready 


图 19-1 Status 4b 


页 面 会 显示 Kibana 的 运行 状态 。 包 括 Nodejs 的 内 存 使 用 、 负 载 、 响 应 性 能 ， 以 及 各 插件 的 加 载 情况 。 


19.2 可视化 插件 示例 


上 一 节 ， 我 们 看 到 了 一 个 完整 的 Kibana 插 件 的 官方 用 例 。 一 般 来 说 ， 我 们 不 太 会 需要 自己 从 头 到 尾 写 一 个 Angular App 出 来 。 最 常见 的 情况 ， 应 该 是 在 Kibana 功 能 的 基础 上 做 一 定 的 二 次 开发 和 扩展 。 
其 中 ， 可 视 化 效果 应 该 是 重 中 之 重 。 本 节 以 一 个 红绿灯 效果 (如 图 19-2 所 示 ) ， 演 示 如 何 开 发 一 个 Kibana 可 视 化 插件 。 


Nginx - Average upstream time traffic light 


Average upstream_time 


W 


19-2 ”红绿灯 效果 


Kibana 开 发 组 提供 了 一 个 简单 的 工具 ， 


et 


BaD BHiIAE RM Kibanati(ti) B Rat : 


npm install -g yo 

npm install -g generator-kibana-plugin 
mkdir traffic light vis 

cd traffic light vis 

yo kibana-plugin 


但 是 这 个 是 针对 完整 的 App 扩 展 的 ， 很 多 目录 对 于 可 视 化 插件 来 说 并 没有 用 。 所 以 ， 我 们 可 以 自己 手动 创建 目录 : 


mkdir -p traffic light vis/public 

cd traffic light vis ` 

touch index.js package.json 

cd public 

touch traffic_light_vis.html traffic_light_vis.js traffic_light_vis.less traffic_light_vis_controller.js traffic_light_vis_params.html 


其 中 indexjs 内 容 如 下 : 


‘use strict'; 
module.exports = function (kibana) { 
return new kibana. Plugin ({ 
uiExports: { 
visTypes: ['plugins/traffic_light_vis/traffic_light_vis'] 


package.json 内 容 如 下 : 


"name": "traffic light vis", 
"version": "0.1.0", 
"description": "An awesome Kibana plugin for red/yellow/green status visualize" 


这 两 个 基础 文件 格式 都 比较 固定 ， 除 了 改 个 名 就 基本 OK 了 。 


19.2.2” 主 文件 及 解释 
然后 我 们 看 最 关键 的 可 视 化 对 象 定义 public/traffic_light_visjs 内 容 : 


define (function (require) { 
// 加 载 样式 表 
require('plugins/traffic light vis/traffic light vis.less'); 
// 加 载 控制 器 程序 
require ('plugins/traffic_light_vis/traffic_light_vis_controller'); 
// 注册 到 vis_types 
require ('ui/registry/vis_types') .register (TrafficLightVisProvider) ; 
function TrafficLightVisProvider (Private) { 
// TemplateVisType 基 类 ， 适 用 于 基础 的 metric 和 数据 表格 式 的 可 视 化 定义 。 上 ，Kibana4 的 metric vis 和 table vis 就 继承 自 这 个 ， 
// Kibana4 还 有 另 一 个 基 类 叫 VisLibVisType， 其 他 使 用 D3.js 做 可 视 化 的 ， 继 承 这 个 。 
Var TemplateVisType = Private (require('ui/template vis type/TemplateVis Type')); 
var Schemas = Private(require('ui/Vis/Schemas')); 
// 模板 化 的 visType 对 象 定义 ， 用 来 配置 和 展示 
return new TemplateVisType ({ 
name: 'traffic_light', 
// 显示 在 visualize 选择 列表 里 的 名 称 ， 描 述 ， 小 图 标 
title: "Traffic Light', 
description: 'Great for one-glance status readings, the traffic light visualization expresses in green / yellow / red the position of a single value in relation to 
icon: 'fa-car', 
// 可 视 化 效果 模板 页 面 
template: require('plugins/traffic light vis/traffic light vis.html'), 
params: { 
defaults: { 
fontSize: 60 


] 
// 编辑 参数 的 页 面 
editor: require('plugins/traffic_light_vis/traffic_light_vis_params.html1') 


] 
// 在 编辑 页 面 上 可 以 选择 的 aggregation 类 型 。 
schemas: new Schemas ([ 
{ 

group: 'metrics', 

name: 'metric', 

title: 'Metric', 

min: 1, 

defaults: [ 

{ type: 'count', schema: 'metric' } 
] 


]) 
he 
} 
// export the provider so that the visType can be required with Private () 
return TrafficLightVisProvider; 
he 


然后 就 是 可 视 化 效果 的 模板 页 面 了 ，traffic light_vis.html 毫 无 疑问 也 是 一 个 Angular 风 格 的 : 


<div ng-controller="TrafficLightVisController" class="traffic-light-vis"> 
<div class="metric-container" ng-repeat="metric in metrics"> 
<div class="traffic-light-container" ng-style="{'width': vis.params.width+'px', 'height': (2.68 * vis.params.width)+'px' }"> 
<div class="traffic-light"> 
light red" ng-class="{'on': (!vis.params.invertScale && metric.value <= vis.params.redThreshold) || (vis.params.invertScale && metric.value >= vis.r 


light yellow" ng-class="{'on': (!vis.params.invertScale && metric.value > vis.params.redThreshold && metric.value < vis.params.greenThreshold) || (v 
light green" ng-class="{'on': (!vis.params.invertScale && metric.value >= vis.params.greenThreshold) || (vis.params.invertScale && metric.value <= v 
</div> 
</div> 
<div>{{metric.label}}</div> 
</div> 
</div> 


这 里 可 以 看 到 : 把 div 绑 定 到 了 TrafficLightVisController 控 制 器 上 ， 这 也 是 之 前 在 js 里 已 经 加 载 过 的 。 通 过 ng-repeat 循 环 展示 不 同 的 metric， 也 就 是 说 模板 泻 染 的 时 候 ， 收 到 的 是 一 个 metrics 数 组 。 
这 个 来 源 当然 是 在 控制 器 里 。 


然后 具体 的 数据 判断 ， 即 什么 灯亮 什么 灯 灭 ， 通 过 了 vis.params.* 的 运算 判断 。 这 些 变 量 当然 是 在 编辑 页 面 里 设置 的 。 所 以 下 一 步 看 编辑 页 面 traffic_light_vis_params.html: 


<div class="form-group"> 

<label>Traffic light width - {{ vis.params.width }}px</label> 
<input type="range" ng-model="vis.params.width" class="form-control" min="30" max="120"/> 

</div> 

<div class="form-group"> 
<label>Red threshold <span ng-bind-template="({{!vis.params.invertScale ? 'below':'above'}} this value will be red)"></span></label> 
<input type="number" ng-model="vis.params.redThreshold" class="form-control"/> 

</div> 

<div class="form-group"> 
<label>Green threshold <span ng-bind-template="({{!vis.params.invertScale ? 'above':'below'}} this value will be green) "></span></label> 
<input type="number" ng-model="vis.params.greenThreshold" class="form-control"/> 

</div> 


form-group"> 


<input type="checkbox" ng-model="vis.params.invertScale"> 
Invert scale 
</label> 
</div> 


内 容 很 简单 ， 就 是 通过 ng-model 设 置 绑 定 变量 ， 跟 之 前 HTML 里 的 联动 。 


最 后 一 步 ， 看 控制 器 traffic light_vis_controllerjs: 


define (function (require) { 
var module = require('ui/modules') .get ('kibana/traffic light _vis', ['kibana']); 
module.controller ('TrafficLightVisController', function ($scope, Private) { 
var tabifyAggResponse = Private (require ('ui/agg_response/tabify/tabify')); 
var metrics = $scope.metrics = []; 
$scope.processTableGroups = function (tableGroups) { 
tableGroups.tables.forEach(function (table) { 
table.columns.forEach(function (column, i) { 
metrics .push ({ 
label: column.title, 
value: table.rows[0] [i] 
he 
he 
he 
ie 
$scope.$watch('esResponse', function (resp) { 
if (resp) { 
metrics.length = 0; 
$scope.processTableGroups (tabifyAggResponse ($scope.vis, resp)); 


要 点 如 下 : 


“$scope.$watch ( ‘esResponse’ , function (resp) {}) 监听 整个 页 面 的 请 求 响应 ， 在 有 新 数据 过 来 的 时 候 更 新 页 面 效 果 。 


+ agg_response/tabify/tabify 把 响应 结果 转换 成 二 维 表 格 形式 。 


最 后 加 上 一 段 样式 表 ， 这 里 就 不 贴 了 ， 见 : https://github.com/logzio/kibana-visualizations/blob/master/traffic_light_vis/traffic_light_vis.less, 


本 节 介 绍 的 示例 ， 出 自 logz.io 官 方 博客 和 对 应 的 Github 开 源 项 


19.3 ”服务 器 端 插件 示例 


上 一 节 介绍 了 如 何 给 Kibana 开 发 浏览 器 端的 可 视 化 插件 。 新 版 Kibana 跟 Kibana 3 比 ， 最 大 的 一 个 变化 是 有 了 独立 的 node ,js 服务 器 端 。 那 么 同样 的 ， 也 就 有 了 


景 : 我 们 可 以 在 node:js 里 跑 定时 器 做 Elasticsearch 的 告警 逻辑 了 ! 


本 节 示 例 一 个 最 基础 的 Kibana 告 警 插件 开发 。 只 演示 基础 的 定时 器 和 Kibana 插 件 规范 ， 实 际 运 上 


。logz.io 是 基于 Kibana 4.1 写 的 插件 。 我 这 里 修正 成 了 基于 最 新 Kibana 4.3 的 实现 。 


民 务 器 端的 Kibana 插 件 。 最 明显 的 一 个 场 


中 ， 肯 定 还 涉及 历史 记录 、 告 警 项 配置 更 新 等 。 请 读者 不 要 直接 拷贝 代码 。 


首先 ， 我 们 尽量 沿 袭 Elastic 官 方 的 Watcher 产 品 的 告警 配置 设计 。 也 新 建 一 个 索引 ， 里 面 是 具体 的 配置 内 容 : 
# curl -XPUT http://127.0.0.1:9200/watcher/watch/error_status -d' 
{ 
"trigger": { 
"schedule" : { "interval" : "60" } 
ks 
"input" : { 
"search" : { 
"request" : { 
"indices" : [ "<logstash-{now/d}>", "<logstash-{now/d-1d}>" ], 
"body" : { 
"query" : { 
"filtered" : { 
"query" : { "match" : { "host" : "MacBook-Pro" } }, 
"filter" : { "range" : { "@timestamp" : { "from" : "now-5m" } } } 
} 
} 
} 
F 
} 
] 
"condition" : 
"Seri q 


: "payload.hits.total > 0" 


} 
ty 


"MacBook-Pro" 


the 


{ "from" : "now-Sm" } } } 


"transform" : { 
"search" : { 
"request" : { 
"indices" : [ "<logstash-{now/d}>", "<logstash-{now/d-ld}>"_ ], 
"body" : { 
"query" : { 
"filtered" : { 
"query" : { "match" : { "host" : 
"filter" : { "range" : { "@timestamp" : 
} 
ty 
"aggs" : { 
"topan" : { 
"terms" { 
"field" : "path.raw" 
} 
} 
} 
} 
} 
} 
ty 
"actions" : { 
"email admin" : { 
"throttle period" : "15m", 
"email" : { 
"to" : "admin@domain", 
"subject" : "Found {{payload.hits.total}} Error Events", 
"priority" : "high", 
"body" : 


} 
p 


"Top10 paths:\n{{#payload.aggregations.topn.buckets}}\t{{key}} {{doc_count}}\n{{/payload.aggregations.topn.buckets}}" 


我 们 可 以 看 到 ， 跟 原版 的 相 比 ， 只 改动 了 很 小 的 一 些 地 方 : 


:为 了 简便 ，interval 国 定 写 数值 ， 没 带 s/m/d/H 之 类 的 单位 。 


condition 里 直接 使 用 了 JavaSctript， 这 点 也 是 ES 2.x 的 mapping 要 求 跟 watcher 本 身 有 冲突 的 一 个 地 方 : watchet 的 “ctx.payload.hits.total” t4 


写 入 失败 的 。 


“ 因为 是 在 Kibana 里 面 运行 ， 所 以 从 ES 拿 到 的 只 有 payload (也 就 是 查询 响应 ) 


好 ， 然 后 创建 插件 : 


: 0} 这 种 写法 ， 如 果 是 普通 家 引 ， 会 因为 字段 名 里 带 .直接 


， 所 以 把 里 面 的 ctx. 都 删 掉 了 。 


cd kibana-4.3.0-darwin-x64/src/plugins 
mkdir alert 


在 自 定义 插件 目录 底下 创建 package.json 描 述 : 


"alert", 
"0.0.1" 


"name": 
"version": 


以 及 最 终 的 indexjs 代 码 : 


‘use strict'; 
module.exports = function (kibana) { 


var later = require('later'); 
var _ = require('lodash'); 
var mustache = require ('mustache') ; 
return new kibana.Plugin({ 
init: function init(server) { 
var client = server.plugins.elasticsearch.client; 
var sched = later.parse.text('every 10 minute'); 
later.setInterval (doalert, sched); 
function doalert() { 
getCount () .then (function (resp) { 
getWatcher (resp.count) .then (function (resp) { 
_-each(resp.hits.hits, function (hit) { 
var watch = hit. source; 
var every = watch.trigger.schedule. interval; 
var watchSched = later.parse.recur() .every (every) .second() ; 
var wt = later.setInterval (watching, watchSched) ; 
function watching() { 
var request = watch.input.search. request; 
var condition = watch.condition.script.script; 
var transform = watch.transform.search. request; 
var actions = watch.actions; 
client .search (request) . then (function (payload) { 
var ret = eval (condition); 
if (ret) { 
client.search (transform) .then(function (payload) { 
.each( .values (actions), function (action) { 
if(_.has(action, 'email')) { 
“var subject = mustache.render (action.email.subject, {"payload":payload}) ; 
var body = mustache.render (action.email.body, {"payload":payload}) ; 
console.log (subject, body) ; 


function getCount() { 
return client.count ({ 
index: 'watcher', 
type: "watch" 
he 
$ 
function getWatcher (count) { 
return client.search ({ 
index: 'watcher', 
type: "watch", 
size:count 


其 中 用 到 了 两 个 npm 模 块 ，later 模 块 用 来 实现 定时 器 和 crontab 文 本 解析 ，mustache 模 块 用 来 泻 染 邮件 内 容 模板 ， 这 也 是 watcher 本 身 采 用 的 泻 染 模块 。 


需要 安装 一 下 : 


npm install later 
npm install mustache 


然后 运行 ./bin/kibana， 就 可 以 看 到 终端 上 除了 原 有 的 内 容 以 外 ， 还 会 定期 输出 alert 的 email 内 容 了 。 


要 点 解释 


这 个 极 简 示例 中 ， 主 要 有 两 段 : 


注册 为 插件 


module.exports = function (kibana) { 
return new kibana.Plugin({ 
init: function init(server) { 


注意 上 一 节 的 可 视 化 插件 ， 这 块 是 : 


module.exports = function (kibana) { 
return new kibana.Plugin({ 
uiExports: { 
visTypes: [ 


引用 ES client: 


init: function init(server) { 
var client = server.plugins.elasticsearch.client; 


这 里 通过 调用 server.plugins 直 接 引用 Kibana 其 他 插件 里 的 对 象 。 这 样 ，alert 揪 件 就 可 以 跟 其 他 功能 共用 同一 个 ES client， 免 去 单独 配置 自己 的 ES 设置 项 和 新 开 网 络 连 接 的 资源 消耗 。 


本 节 代 码 后 续 优 化 改进 见 : https://github.com/chenryn/kaae。 项 目 中 还 附带 有 一 个 spy 式 插件 ， 有 兴趣 的 读者 可 以 继续 学 习 spy 这 类 不 太 常见 插件 扩展 的 用 法 。 


19.4 ”完整 应 用 开发 示例 


前 面 两 节 ， 我 们 分 别 看 过 了 如 何 开发 可 视 化 部 分 和 服务 器 端 部 分 。 现 在 ， 我 们 把 这 两 头 综合 起 来 ， 做 一 个 可 以 在 Kibana 菜 单 栏 上 切换 使 用 的 完整 的 App。 就 像 Kibana 5 默认 分 发 的 timelion 和 console 
那样 。 


当然 我 们 这 里 不 会 真 的 特意 搞 一 个 很 复杂 的 可 视 化 应 用 。 我 们 只 做 一 个 Elasticsearch 状 态 展示 页 面 就 好 了 。 这 个 方式 正好 可 以 串联 从 前 到 后 的 请 求 、 展 示 部 分 。 


19.4.1 _ App 模块 的 indexjs 结 构 


我 们 已 经 讲 过 了 在 index.js 中 如 何 使 用 uiExports.visType 和 init。 那 么 app 的 index.js 是 什么 样子 的 呢 ? 


export default function (kibana) { 
return new kibana.Plugin({ 
require: ['elasticsearch'], 
uiExports: { 
app: { 

title: 'Indices', 
description: 'An awesome Kibana plugin', 
main: 'plugins/elasticsearch_status/app', 
icon: 'plugins/elasticsearch_status/icon.svg!' 


he 


这 个 示例 中 有 两 处 特殊 的 代码 : require 指 令 加 载 了 elasticsearch 模 块 ; 这 表示 后 续 我 们 会 用 到 这 个 模块 ， 所 以 提前 加 载 好 。uiExports 中 使 用 了 app 键 值 对 定义 。 其 中 这 几 对 键 值 的 含义 如 下 : 
title: app 的 名 称 ， 用 来 显示 在 Kibana 左 侧 边栏 上 的 文字 。 
icon: app 的 图 表 ， 用 来 显示 在 Kibana 左 侧 边 栏 上 的 图 标 。 


+ main: app 的 主 入 口 js 文件 。 


19.4.2 ”服务 器 端 部 分 


作为 完整 的 app， 自 然 也 还 是 有 服务 器 端的 部 分 。 上 节 已 经 讲 过 ， 在 index.js 中 的 init 部 分 定义 这 块 : 


return new kibana.Plugin({ 
// http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/... 
init(server, options) { ~ 
server. route ({ 
path: '/api/elasticsearch_status/index/{name}', 
method: 'GET', 
handler (req, reply) { 
server.plugins.elasticsearch.callWithRequest (req, 'cluster.state', { 
metric: 'metadata', 
index: req.params.name 
}).then(function (response) { 
reply (response .metadata. indices [req.params.name] ) ; 


he 


传 入 的 server 参 数 ， 我 们 在 上 节 只 是 用 来 获取 了 一 下 ESClient。 这 次 ， 我 们 正式 使 用 一 些 Hapijs 真 正 的 功能 。 比 如 路 由 。 


这 里 创建 的 是 一 个 可 以 被 GET 方 法 访问 的 URL 地 址 /api/elasticsearch_status/index/<index name>。 对 访问 的 处 理应 答 ， 使 用 handler 方 法 。 


handler 方 法 传 入 两 个 参数 : 
req: 有 关 请 求 的 信息 都 可 以 通过 req 对 象 获 取 ， 比 如 路 由 中 宵 获 的 就 可 以 用 red.paramsname 来 引用 。 


' reply: 应 答 处 理 的 内 容 通过 reply 返 回 。 


然后 采用 server.plugins.elasticsearch.callWithRequest 来 发 送 Elasticsearch 请 求 ， 通 过 Promise.then 来 异步 返回 最 终 的 reply。 这 部 分 和 上 节 讲 的 类 似 ， 就 不 展开 了 。 


19.4.3 ”前 台 界 面 的 appjs 


indexjs 和 后 台数 据 已 经 就 绪 ， 下 面 就 是 前 台 界面 展示 问题 。 我 们 已 经 在 indexjs 里 定义 过 了 main 文 件 ， 是 appjs。 


import 'ui/autoload/styles'; 
import './less/main.less'; 
import uiRoutes from 'ui/routes'; 
import uiModules from 'ui/modules'; 
import overviewTemplate from './templates/index.html'; 
import detailTemplate from './templates/detail.htmL'; 
uiRoutes.enable(); 
uiRoutes 
when ('/', { 
template: overviewTemplate, 
controller: 'elasticsearchStatusController', 
controllerAs: 'ctrl' 
3) 
.when('/index/:name', { 
template: detailTemplate, 
controller: 'elasticsearchDetailController', 
controllerAs: 'ctrl' 


he 


文件 第 一 行 永远 要 是 加 载 u/autoload/styles。 这 一 行 的 作用 是 保证 你 的 app 界 面 和 Kibana 总 体 保持 统一 风格 。 这 也 是 Kibana5 才 有 的 新 内 容 。 


然后 通过 uiRoutes 来 完成 Angular 框 架 的 路 由 定义 。 这 方面 在 之 前 的 Kibana 源 码 介绍 中 已 经 反复 出 现 过 。 这 里 我 们 定义 好 路 由 对 应 的 控制 器 和 模板 文件 。 


作为 一 个 简单 示例 ， 我 们 可 以 直接 在 appjs 里 继续 实现 控制 器 部 分 。 如 果 是 复杂 应 用 ， 一 般 这 里 可 以 拆 分 成 单独 文件 。 


在 Kibana 中 ， 实 现 控制 器 的 方式 如 下 : 


uiModules 
.get ('app/elasticsearch status') 
.controller ('elasticsearchStatusController', function (Shttp) { 
Shttp.get ("http: //www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/16099/OEBPS/Text/../api/elasticsearch_status/indices') .then( (response) => 
this.indices = response.data; 本 E 


这 里 采用 的 是 Kibana 框 架 已 经 封装 好 的 uiModules.get () .controller () ， 比 标准 的 angular.module 省 去 了 一 些 创 建 声 明 、 依 赖 处 理 之 类 的 工作 。 同 样 也 是 之 前 的 源码 讲解 里 很 熟悉 的 部 分 了 。 


这 里 作为 和 后 端的 配合 ， 我 们 使 用 Angular 标 准 的 $http 来 调用 http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/16099/OEBPS/Text/../api/elasticsearch_status/indices 地 址 。 这 正 是 之 前 我 们 声明 好 的 服务 器 端 URL。 


19.4.4 “页面 模板 


Angular 模 板 语言 也 是 已 经 见 过 很 多 面 的 老 朋 友 了 ， 这 块 我 们 用 最 简单 的 一 个 ng-repeat 循 环 展示 列表 即 可 。 


<div class="container"> 
<div class="row"> 
<div class="col-12-sm"> 
<hl>Elasticsearch Status</h1> 
<ul class="indexList"> 
<li ng-repeat="index in ctrl.indices"> 
<a href="#/index/{{index}}">{{ index }}</a> 
</li> 
</ul> 
</div> 
</div> 
</div> 


完毕 ， 最 终 效果 如 图 19-3 所 示 。 一 个 带 有 前 后 台 乃 至 莱 单 栏 的 完整 App 就 是 这 么 简单 。 


Save Open Share 


Selected Fields 
? _source 


Available Fields 


_source 


account_number: 25 balance: 40,540 firstname: Virginia lastname: Ayala age: 39 gender: F address: 171 
Putnam Avenue employer: Filodyne email: virginiaayala@filodyne.com city: Nicholson state: PA _id: 25 
_type: account _index: bank _score: 1 


account_number: 44 balance: 34,487 firstname: Aurelia lastname: Harding age: 37 gender: M address: 50 
2 Baycliff Terrace employer: Orbalix email: aureliaharding@orbalix.com city: Yardville state: DE _id: 4 
4 _type: account _index: bank _score: 1 


图 19-3 ”完整 App 示 例 


